用 Venn Diagram 理解多元線(xiàn)性回歸的 OLS 估計(jì)

發(fā)布時(shí)間：2020-10-12 | 來(lái)源: 川總寫(xiě)量化

作者：石川

摘要：Venn diagram 為理解多元回歸模型的 OLS 估計(jì)提供了直觀(guān)思路。通過(guò)它，人們很容易搞懂共線(xiàn)性、遺漏變量造成的問(wèn)題，并直觀(guān)的感受 R-squared、回歸系數(shù)估計(jì)以及其誤差的高低。

1?引言

線(xiàn)性回歸模型以及其估計(jì)方法 OLS 在實(shí)證資產(chǎn)定價(jià)中發(fā)揮了重要的作用。例如傳統(tǒng) Fama-French 三因子時(shí)序回歸模型以及 Fama and MacBeth (1973) 截面回歸都是這樣的例子。相信各位小伙伴對(duì)此都不陌生。

今天這篇小文將從一個(gè)非常直觀(guān)的角度解釋多元線(xiàn)性回歸背后的機(jī)制，并探討常見(jiàn)的多重共線(xiàn)性以及遺漏變量將會(huì)對(duì)回歸系數(shù)估計(jì)造成何種影響。這個(gè)直觀(guān)的角度就是 Venn Diagram（韋恩圖）。必須強(qiáng)調(diào)的是，Venn diagram 的目的是提供直觀(guān)理解，加深人們對(duì) OLS 估計(jì)機(jī)理的認(rèn)知。Venn Diagram 由英國(guó)數(shù)學(xué)家 John Venn 發(fā)明，用于展示在不同的事物群組（集合）之間的數(shù)學(xué)或邏輯聯(lián)系。

A?Venn diagram, also called?primary diagram,?set diagram?or?logic diagram, is a?diagram?that shows?all?possible?logical?relations between a finite collection of different?sets.

例如下面這組圖就展示了兩個(gè)集合之間的不同關(guān)系（出處：wikipedia）：

那么 Venn diagram 和 OLS 又有什么關(guān)系？將 Venn diagram 用于解釋多元線(xiàn)性回歸可以追溯到 Cohen and Cohen (1975)，之后 Kennedy (1981, 2002)、Ip (2001) 等在其基礎(chǔ)上又有了大量的拓展。此外，邱嘉平教授的《因果推斷實(shí)用計(jì)量方法》一書(shū)對(duì) Venn diagram 也有涉及。下面就先來(lái)說(shuō)說(shuō)基本要素。

2?基本要素

當(dāng)使用 Venn diagram 研究回歸問(wèn)題時(shí)，每個(gè)變量可被表示成一個(gè)圓圈，而圓圈的面積則用來(lái)表示每個(gè)變量的方差 —— 面積越大表示方差越大；而兩個(gè)圓圈重疊的部分則表示兩變量相互關(guān)聯(lián)的部分，即協(xié)方差。以上就是研究的基本要素。以下圖為例，考慮解釋變量 x 和被解釋變量 y。兩個(gè)圓圈分別表示它們各自的方差，重疊的部分 B 則表示它們共同運(yùn)動(dòng)的部分，即 x 和 y 的協(xié)方差。

依照?qǐng)D中信息，y 的方差 var(y) 為 A + B 的面積；x 的方差 var(x) 為 B + C 的面積；x 和 y 的協(xié)方差 cov(x, y) 為 B 的面積。帶著這些要素，馬上來(lái)看單一解釋變量的情況。

3?單個(gè)解釋變量

假設(shè) y 和 x 滿(mǎn)足以下線(xiàn)性回歸模型：

通過(guò) OLS 對(duì)其進(jìn)行估計(jì)可得（這里我們只關(guān)心 x_i 的回歸系數(shù) b 的估計(jì)）：

對(duì)應(yīng)上一節(jié)的 Venn diagram 中的定義，馬上可以看出 b 的估計(jì)為 B 的面積和 B + C 面積之比：

結(jié)合 Venn diagram 和 b 估計(jì)量的定義可以總結(jié)出以下三點(diǎn)：

1. 在 OLS 估計(jì)時(shí)，x 和 y 重疊的部分 B 將被用來(lái)估計(jì) x 的系數(shù) b；如果 B 所包含的信息僅和 x 有關(guān)（而和其他解釋變量無(wú)關(guān)；多元回歸問(wèn)題將在下一節(jié)說(shuō)明），那么使用這部分信息得到的 b 的估計(jì)就是無(wú)偏的；

2. 若 B 的面積越大，則用來(lái)估計(jì)回歸系數(shù) b 的信息越多，因此 \hat b 的 standard error 就越小（如何通過(guò) Venn diagram 中不同部分的面積推斷 standard error 的大小將在多元回歸中說(shuō)明）。

3. 圖中，A 是 x 無(wú)法解釋的 y 的波動(dòng)，即回歸模型中擾動(dòng)項(xiàng) e 的方差。

以上就是一元回歸的直觀(guān)理解。

4?多元回歸

下面來(lái)看多元回歸的情況。多元回歸要比一元回歸有（fu）趣（za）的多。為了便于理解，考慮兩個(gè)不完全獨(dú)立的解釋變量 x_1 和 x_2，以及被解釋變量 y。它們之間的關(guān)系滿(mǎn)足以下線(xiàn)性回歸模型：

當(dāng)使用 Venn diagram 時(shí)，它們的關(guān)系如下圖所示。

從圖中可知，x_1 和 y 相關(guān)聯(lián)的部分可通過(guò) B + D 的面積表示，而 x_2 和 y 相關(guān)聯(lián)的部分則可由 F + D 表示。而這其中 D 是共有的部分，即 D 部分表示的 y 的波動(dòng)是由 x_1 和 x_2 共同驅(qū)動(dòng)的。那么問(wèn)題來(lái)了，在 OLS 估計(jì) b_1 和 b_2 時(shí)，應(yīng)該用到 Venn diagram 中的哪部分信息？得到的估計(jì)又是否是無(wú)偏的？考慮以下三個(gè)選項(xiàng)，你認(rèn)為哪個(gè)是正確的？

1. 使用 B + D 包含的信息估計(jì) x_1 的系數(shù) b_1、F + D 包含的信息估計(jì) x_2 的系數(shù) b_2；

2.?通過(guò)某種巧妙的方法分割 D 的信息，使之一部分和 B 一起估計(jì) x_1 的系數(shù) b_1、另一部分和 F 一起估計(jì) x_2 的系數(shù) b_2；

3. 舍棄 D，僅使用 B 的信息來(lái)估計(jì) x_1 的系數(shù) b_1、僅使用 F 包含的信息估計(jì) x_2 的系數(shù) b_2。

怎么樣？思考一下。如果你選擇了 3，那么恭喜你！1 和 2 之所以不對(duì)，恰恰是因?yàn)?D 部分表示的 y 的波動(dòng)是由 x_1 和 x_2 共同驅(qū)動(dòng)的，因此難以分清兩個(gè)解釋變量各自的貢獻(xiàn)；D 又被稱(chēng)為被污染的信息。此外，當(dāng)僅使用 B 和 F 分別估計(jì) b_1 和 b_2 時(shí)，由于 B 和 x_2 無(wú)關(guān)，F(xiàn) 和 x_1 無(wú)關(guān)，因此得到的 b_1 和 b_2 的估計(jì)也都是無(wú)偏的。OLS 背后的數(shù)學(xué)原理也恰恰保證了這一點(diǎn)。如果用 Venn diagram 圖中的部分表示，則 b_1 和 b_2 的估計(jì)量分別為：

除此之外，和一元回歸類(lèi)似，在上圖中 A 的部分代表 y 中無(wú)法被 x_1 和 x_2 解釋的部分，因此它是擾動(dòng)項(xiàng) e 的方差。此外，通過(guò) Venn diagram 也可以方便的看出可決系數(shù) R-squared 的定義，它是 B、D、F 三部分面積之和與 A、B、D、F 四部分面積之和之比：

有的小伙伴可能已經(jīng)注意到了，雖然在估計(jì)回歸系數(shù)時(shí)舍棄了 D，但是在計(jì)算 R-squared 時(shí)卻沒(méi)有。這是因?yàn)?D 是兩個(gè)解釋變量共同解釋 y 的部分。雖然我們無(wú)法分清每個(gè)變量貢獻(xiàn)了多少，但它們作為一個(gè)整體依然對(duì)解釋 y 的波動(dòng)有貢獻(xiàn)，因此在計(jì)算 R-squared 時(shí)應(yīng)考慮 Venn diagram 中 D 的面積。

回到我們關(guān)注的問(wèn)題 —— 實(shí)證資產(chǎn)定價(jià)，僅僅得到回歸系數(shù)的估計(jì)是不夠的，很多時(shí)候都要知道估計(jì)的 standard error，才能進(jìn)行檢驗(yàn)。由 OLS 性質(zhì)可知，對(duì)于回歸系數(shù) b_i，其估計(jì)值的方差可由下式?jīng)Q定：

式中的分子是模型中隨機(jī)擾動(dòng)項(xiàng)的方差（實(shí)際中代入樣本方差即可，再對(duì)上式開(kāi)根號(hào)就得到 standard error）。R_i^2 為用 x_i 對(duì)其他所有 x_j 回歸的可決系數(shù)；R_i^2 越高說(shuō)明 x_i 和其他解釋變量相關(guān)性越高。最后，SST_i 是變量 x_i 的 total sample variation（不難看出它和 x_i 的方差就差一個(gè)系數(shù)）：

Var(\hat b_i) 的表達(dá)式說(shuō)明，當(dāng) x_i 自身的波動(dòng)越大且/或 x_i 和其他解釋變量的相關(guān)性越低時(shí)，其估計(jì)誤差越小。

由于 Venn diagram 中的面積表示方差或協(xié)方差，且結(jié)合前述 R-squared 的定義，就可以通過(guò) Venn diagram 中的元素清晰的反映出 var(\hat b_i) 的表達(dá)式。舉例來(lái)說(shuō)，在本節(jié)考慮的二元回歸模型中，x_1 的回歸系數(shù)估計(jì) \hat b_1 的方差如下圖所示。

顯然，當(dāng) B + C 的面積非常小時(shí)，var(\hat b_1) 就會(huì)非常大。什么時(shí)候 B + C 會(huì)非常小呢？解釋變量之間存在高度相關(guān)時(shí)就會(huì)出現(xiàn)這種情況。下面就來(lái)討論這一問(wèn)題。

5?高度共線(xiàn)性

多元回歸中，經(jīng)常遇到的問(wèn)題就是解釋變量之間高度相關(guān)。以下面兩圖為例，左邊是一個(gè) x_1 和 x_2 有正常關(guān)系的 Venn diagram，右側(cè)則是 x_1 和 x_2 高度共線(xiàn)性的 Venn diagram。二者的相關(guān)性體現(xiàn)在 x_1 和 x_2 的圓圈重疊部分非常大（即 D + E 的面積非常大）。

由 OLS 可知，由于 D 部分是被污染的信息，因此在估計(jì) b_1 和 b_2 時(shí)被舍棄了。如果 D 的面積非常大（解釋變量高度相關(guān)），那么剩余的面積（上圖中的 B 和 F）就會(huì)很少，相當(dāng)于只有很少的信息用來(lái)估計(jì) b_1 和 b_2，因此可想而知估計(jì)誤差就會(huì)更高。在極端情況下，當(dāng) x_1 和 x_2 完全共線(xiàn)性時(shí)（即代表它們的兩個(gè)圓圈完全重合），則 B 和 F 均消失，這時(shí)將沒(méi)有任何信息用來(lái)估計(jì) b_1 和 b_2。依照上一節(jié)給出的 var(\hat b_i) 的直觀(guān)解釋?zhuān)瑅ar(\hat b_1) 和 var(\hat b_2) 分別滿(mǎn)足：

當(dāng)存在高度共線(xiàn)性時(shí)，B、C、F、G 都會(huì)變得非常小，因此上述中的分母就會(huì)非常小，導(dǎo)致很大的方差。但需要強(qiáng)調(diào)的是，即便存在高度共線(xiàn)性，但上述 OLS 中 b_1 和 b_2 的估計(jì)也是無(wú)偏的，因?yàn)橐廊粌H使用了 B 和 F 來(lái)分別估計(jì)，而沒(méi)有用到被污染的信息 D。另一方面，由 R-squared 的定義可知，在計(jì)算它時(shí)無(wú)需剔除 D。因此，這將會(huì)造成一個(gè)非常有意思的現(xiàn)象，即當(dāng)高度共線(xiàn)性存在時(shí)，R-squared 很大（即所有解釋變量有很好的共同解釋力），但每個(gè)解釋變量的回歸系數(shù)卻都不顯著（因?yàn)?standard error 太大）。在實(shí)際數(shù)據(jù)中，如果發(fā)現(xiàn)這個(gè)現(xiàn)象，很可能是多重共線(xiàn)性惹的禍。

既然談到相關(guān)性，再捎帶手聊一下正交化的問(wèn)題。假設(shè)使用 x_2 對(duì) x_1 回歸，求出殘差作為正交化之后的 x_2，記為 ox_2。下圖中右側(cè) Venn diagram 中的紅色“月牙”就是 ox_2，綠色是不受影響的 x_1。

從 Venn diagram 不難看出，當(dāng)不正交化時(shí)（上方左圖），會(huì)使用 B 和 F 分別估計(jì) b_1 和 b_2；而當(dāng)對(duì) x_2 正交化之后（上方右圖），則會(huì)使用 B + D 估計(jì) b_1、使用 F 來(lái)估計(jì) b_2。因此對(duì) x_2 正交化對(duì) b_2 的估計(jì)是沒(méi)有影響的，但其依然會(huì)影響 b_1 的估計(jì)結(jié)果。以下是一個(gè)簡(jiǎn)單的例子說(shuō)明上述這一點(diǎn)。

由于正交化后的 ox_2 和 x_1 不相關(guān)（體現(xiàn)在圖上就是兩者不相交），因此模型一（僅有 x_1）和模型三（包含 x_1 和 ox_2）中 b_1 的估計(jì)值是一樣的。另一方面，由于正交化 x_2 不改變 x_2 的估計(jì)，因此在模型二（包含 x_1 和 x_2）和三中，b_2 的估計(jì)值是一樣的。最后，由于在模型三中，x_2 被正交化，因此 B + D 被用來(lái)估計(jì) b_1，因此相比模型二，其估計(jì)值的 standard error 更低。

6?遺漏變量

通過(guò)下圖解釋遺漏變量問(wèn)題。假設(shè)解釋變量 x_1、x_2 以及被解釋變量 y 的關(guān)系如 Venn diagram 所示，并考慮圖中兩個(gè)模型，其中模型一因?yàn)閮H考慮了 x_1，因此存在遺漏變量問(wèn)題。

對(duì) x_1 的系數(shù) b_1 來(lái)說(shuō)，在這兩個(gè)模型中，其 OLS 估計(jì)分別為：

由于遺漏變量，第一個(gè)模型錯(cuò)誤的使用 D 所包含的信息（被污染的信息），因此第一個(gè)模型中 b_1 的估計(jì)是有偏的（例外是 x_1 和 x_2 不相關(guān)，則 D 不存在）。然而，遺漏變量也并非都是缺點(diǎn)，其優(yōu)點(diǎn)（姑且算作優(yōu)點(diǎn)）是由于更多的信息（D）被用來(lái)估計(jì) b_1，因此它的 standard error 更低。另一點(diǎn)值得說(shuō)明的是，當(dāng)遺漏 x_2 時(shí)，由 Venn diagram 可知，圖中 A + F 的面積被錯(cuò)誤的當(dāng)作擾動(dòng)項(xiàng) e 的方差；而實(shí)際當(dāng)同時(shí)使用 x_1 和 x_2 時(shí)，其方差應(yīng)為 A。遺漏變量造成擾動(dòng)項(xiàng) e 的方差被高估。

最后，若 x_1 和 x_2 不相關(guān)時(shí)（下圖；解釋變量不相關(guān)體現(xiàn)在 Venn diagram 上代表 x_1 和 x_2 的兩個(gè)圓圈沒(méi)有重疊），則遺漏 x_2 不會(huì)對(duì) b_1 的估計(jì)造成影響。這是因?yàn)闊o(wú)論是 y 僅對(duì) x_1 回歸還是同時(shí)對(duì) x_1 和 x_2 回歸，在估計(jì) b_1 時(shí)用到的均是 B 的信息。由于 x_1 和 x_2 不相關(guān)，因此區(qū)域 B 不受 x_2 的影響。

7?結(jié)語(yǔ)

通過(guò)利用 Venn diagram，人們很容易搞懂共線(xiàn)性、遺漏變量造成的問(wèn)題，并直觀(guān)的感受 R-squared、回歸系數(shù)估計(jì)以及其誤差的高低。照例總結(jié)一下：當(dāng)存在共線(xiàn)性時(shí)，估計(jì)依然是無(wú)偏的，但是 standard error 會(huì)變大；而當(dāng)存在遺漏變量且遺漏的變量和現(xiàn)有的解釋變量相關(guān)時(shí)，那么估計(jì)將會(huì)是有偏的、但 standard error 會(huì)降低，且 y 的擾動(dòng)項(xiàng)的方差會(huì)被高估。

不過(guò) Venn diagram 也絕非無(wú)所不能。比如圖中重疊的部分僅僅表示兩個(gè)變量之間存在相關(guān)性，但它無(wú)法說(shuō)明是正相關(guān)還是負(fù)相關(guān)。無(wú)論如何，Venn diagram 為加深人們對(duì)多元回歸模型的 OLS 估計(jì)的理解提供了非常直觀(guān)的思路，是一個(gè)非常好用的思考工具。希望本文的介紹能帶給你這種體會(huì)。

參考文獻(xiàn)

Cohen, J. and P. Cohen (1975). Applied Multiple Regression/Correlation Analysis for the Behavioral Science. Hillside, NJ: Lawrence Erlbaum Associates.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests.?Journal of Political Economy 81(3), 607 – 636.

Ip, E. H. S. (2001). Visualizing multiple regression. Journal of Statistics Education 9(1).

Kennedy, P. E. (1981). The “Ballentine”: A graphical aid for econometrics. Australian Economic Papers 20(37), 414 – 416.

Kennedy, P. E. (2002). More on Venn Diagrams for regression. Journal of Statistics Education 10(1).

邱嘉平 (2020). 因果推斷實(shí)用計(jì)量方法.?上海財(cái)經(jīng)大學(xué)出版社.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外，文中圖表均直接或間接來(lái)自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

用 Venn Diagram 理解多元線(xiàn)性回歸的 OLS 估計(jì)