在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

用 Venn Diagram 理解多元線(xiàn)性回歸的 OLS 估計(jì)

發(fā)布時(shí)間:2020-10-12  |   來(lái)源: 川總寫(xiě)量化

作者:石川

摘要:Venn diagram 為理解多元回歸模型的 OLS 估計(jì)提供了直觀(guān)思路。通過(guò)它,人們很容易搞懂共線(xiàn)性、遺漏變量造成的問(wèn)題,并直觀(guān)的感受 R-squared、回歸系數(shù)估計(jì)以及其誤差的高低。


1?引言


線(xiàn)性回歸模型以及其估計(jì)方法 OLS 在實(shí)證資產(chǎn)定價(jià)中發(fā)揮了重要的作用。例如傳統(tǒng) Fama-French 三因子時(shí)序回歸模型以及 Fama and MacBeth (1973) 截面回歸都是這樣的例子。相信各位小伙伴對(duì)此都不陌生。


今天這篇小文將從一個(gè)非常直觀(guān)的角度解釋多元線(xiàn)性回歸背后的機(jī)制,并探討常見(jiàn)的多重共線(xiàn)性以及遺漏變量將會(huì)對(duì)回歸系數(shù)估計(jì)造成何種影響。這個(gè)直觀(guān)的角度就是 Venn Diagram(韋恩圖)。必須強(qiáng)調(diào)的是,Venn diagram 的目的是提供直觀(guān)理解,加深人們對(duì) OLS 估計(jì)機(jī)理的認(rèn)知。Venn Diagram 由英國(guó)數(shù)學(xué)家 John Venn 發(fā)明,用于展示在不同的事物群組(集合)之間的數(shù)學(xué)或邏輯聯(lián)系。


A?Venn diagram, also called?primary diagram,?set diagram?or?logic diagram, is a?diagram?that shows?all?possible?logical?relations between a finite collection of different?sets.


例如下面這組圖就展示了兩個(gè)集合之間的不同關(guān)系(出處:wikipedia):



那么 Venn diagram 和 OLS 又有什么關(guān)系?將 Venn diagram 用于解釋多元線(xiàn)性回歸可以追溯到 Cohen and Cohen (1975),之后 Kennedy (1981, 2002)、Ip (2001) 等在其基礎(chǔ)上又有了大量的拓展。此外,邱嘉平教授的《因果推斷實(shí)用計(jì)量方法》一書(shū)對(duì) Venn diagram 也有涉及。下面就先來(lái)說(shuō)說(shuō)基本要素。


2?基本要素


當(dāng)使用 Venn diagram 研究回歸問(wèn)題時(shí),每個(gè)變量可被表示成一個(gè)圓圈,而圓圈的面積則用來(lái)表示每個(gè)變量的方差 —— 面積越大表示方差越大;而兩個(gè)圓圈重疊的部分則表示兩變量相互關(guān)聯(lián)的部分,即協(xié)方差。以上就是研究的基本要素。以下圖為例,考慮解釋變量 x 和被解釋變量 y。兩個(gè)圓圈分別表示它們各自的方差,重疊的部分 B 則表示它們共同運(yùn)動(dòng)的部分,即 x 和 y 的協(xié)方差。


f2.png


依照?qǐng)D中信息,y 的方差 var(y) 為 A + B 的面積;x 的方差 var(x) 為 B + C 的面積;x 和 y 的協(xié)方差 cov(x, y) 為 B 的面積。帶著這些要素,馬上來(lái)看單一解釋變量的情況。


3?單個(gè)解釋變量


假設(shè) y 和 x 滿(mǎn)足以下線(xiàn)性回歸模型:



通過(guò) OLS 對(duì)其進(jìn)行估計(jì)可得(這里我們只關(guān)心 x_i 的回歸系數(shù) b 的估計(jì)):



對(duì)應(yīng)上一節(jié)的 Venn diagram 中的定義,馬上可以看出 b 的估計(jì)為 B 的面積和 B + C 面積之比:



結(jié)合 Venn diagram 和 b 估計(jì)量的定義可以總結(jié)出以下三點(diǎn):


1. 在 OLS 估計(jì)時(shí),x 和 y 重疊的部分 B 將被用來(lái)估計(jì) x 的系數(shù) b;如果 B 所包含的信息僅和 x 有關(guān)(而和其他解釋變量無(wú)關(guān);多元回歸問(wèn)題將在下一節(jié)說(shuō)明),那么使用這部分信息得到的 b 的估計(jì)就是無(wú)偏的;


2. 若 B 的面積越大,則用來(lái)估計(jì)回歸系數(shù) b 的信息越多,因此 \hat b 的 standard error 就越小(如何通過(guò) Venn diagram 中不同部分的面積推斷 standard error 的大小將在多元回歸中說(shuō)明)。


3. 圖中,A 是 x 無(wú)法解釋的 y 的波動(dòng),即回歸模型中擾動(dòng)項(xiàng) e 的方差。


以上就是一元回歸的直觀(guān)理解。


4?多元回歸


下面來(lái)看多元回歸的情況。多元回歸要比一元回歸有(fu)趣(za)的多。為了便于理解,考慮兩個(gè)不完全獨(dú)立的解釋變量 x_1 和 x_2,以及被解釋變量 y。它們之間的關(guān)系滿(mǎn)足以下線(xiàn)性回歸模型:



當(dāng)使用 Venn diagram 時(shí),它們的關(guān)系如下圖所示。


f7.png


從圖中可知,x_1 和 y 相關(guān)聯(lián)的部分可通過(guò) B + D 的面積表示,而 x_2 和 y 相關(guān)聯(lián)的部分則可由 F + D 表示。而這其中 D 是共有的部分,即 D 部分表示的 y 的波動(dòng)是由 x_1 和 x_2 共同驅(qū)動(dòng)的。那么問(wèn)題來(lái)了,在 OLS 估計(jì) b_1 和 b_2 時(shí),應(yīng)該用到 Venn diagram 中的哪部分信息?得到的估計(jì)又是否是無(wú)偏的?考慮以下三個(gè)選項(xiàng),你認(rèn)為哪個(gè)是正確的?


1. 使用 B + D 包含的信息估計(jì) x_1 的系數(shù) b_1、F + D 包含的信息估計(jì) x_2 的系數(shù) b_2;


2.?通過(guò)某種巧妙的方法分割 D 的信息,使之一部分和 B 一起估計(jì) x_1 的系數(shù) b_1、另一部分和 F 一起估計(jì) x_2 的系數(shù) b_2;


3. 舍棄 D,僅使用 B 的信息來(lái)估計(jì) x_1 的系數(shù) b_1、僅使用 F 包含的信息估計(jì) x_2 的系數(shù) b_2。


怎么樣?思考一下。如果你選擇了 3,那么恭喜你!1 和 2 之所以不對(duì),恰恰是因?yàn)?D 部分表示的 y 的波動(dòng)是由 x_1 和 x_2 共同驅(qū)動(dòng)的,因此難以分清兩個(gè)解釋變量各自的貢獻(xiàn);D 又被稱(chēng)為被污染的信息。此外,當(dāng)僅使用 B 和 F 分別估計(jì) b_1 和 b_2 時(shí),由于 B 和 x_2 無(wú)關(guān),F(xiàn) 和 x_1 無(wú)關(guān),因此得到的 b_1 和 b_2 的估計(jì)也都是無(wú)偏的。OLS 背后的數(shù)學(xué)原理也恰恰保證了這一點(diǎn)。如果用 Venn diagram 圖中的部分表示,則 b_1 和 b_2 的估計(jì)量分別為:



除此之外,和一元回歸類(lèi)似,在上圖中 A 的部分代表 y 中無(wú)法被 x_1 和 x_2 解釋的部分,因此它是擾動(dòng)項(xiàng) e 的方差。此外,通過(guò) Venn diagram 也可以方便的看出可決系數(shù) R-squared 的定義,它是 B、D、F 三部分面積之和與 A、B、D、F 四部分面積之和之比:



有的小伙伴可能已經(jīng)注意到了,雖然在估計(jì)回歸系數(shù)時(shí)舍棄了 D,但是在計(jì)算 R-squared 時(shí)卻沒(méi)有。這是因?yàn)?D 是兩個(gè)解釋變量共同解釋 y 的部分。雖然我們無(wú)法分清每個(gè)變量貢獻(xiàn)了多少,但它們作為一個(gè)整體依然對(duì)解釋 y 的波動(dòng)有貢獻(xiàn),因此在計(jì)算 R-squared 時(shí)應(yīng)考慮 Venn diagram 中 D 的面積。


回到我們關(guān)注的問(wèn)題 —— 實(shí)證資產(chǎn)定價(jià),僅僅得到回歸系數(shù)的估計(jì)是不夠的,很多時(shí)候都要知道估計(jì)的 standard error,才能進(jìn)行檢驗(yàn)。由 OLS 性質(zhì)可知,對(duì)于回歸系數(shù) b_i,其估計(jì)值的方差可由下式?jīng)Q定:



式中的分子是模型中隨機(jī)擾動(dòng)項(xiàng)的方差(實(shí)際中代入樣本方差即可,再對(duì)上式開(kāi)根號(hào)就得到 standard error)。R_i^2 為用 x_i 對(duì)其他所有 x_j 回歸的可決系數(shù);R_i^2 越高說(shuō)明 x_i 和其他解釋變量相關(guān)性越高。最后,SST_i 是變量 x_i 的 total sample variation(不難看出它和 x_i 的方差就差一個(gè)系數(shù)):



Var(\hat b_i) 的表達(dá)式說(shuō)明,當(dāng) x_i 自身的波動(dòng)越大且/或 x_i 和其他解釋變量的相關(guān)性越低時(shí),其估計(jì)誤差越小。


由于 Venn diagram 中的面積表示方差或協(xié)方差,且結(jié)合前述 R-squared 的定義,就可以通過(guò) Venn diagram 中的元素清晰的反映出 var(\hat b_i) 的表達(dá)式。舉例來(lái)說(shuō),在本節(jié)考慮的二元回歸模型中,x_1 的回歸系數(shù)估計(jì) \hat b_1 的方差如下圖所示。


f13.png


顯然,當(dāng) B + C 的面積非常小時(shí),var(\hat b_1) 就會(huì)非常大。什么時(shí)候 B + C 會(huì)非常小呢?解釋變量之間存在高度相關(guān)時(shí)就會(huì)出現(xiàn)這種情況。下面就來(lái)討論這一問(wèn)題。


5?高度共線(xiàn)性


多元回歸中,經(jīng)常遇到的問(wèn)題就是解釋變量之間高度相關(guān)。以下面兩圖為例,左邊是一個(gè) x_1 和 x_2 有正常關(guān)系的 Venn diagram,右側(cè)則是 x_1 和 x_2 高度共線(xiàn)性的 Venn diagram。二者的相關(guān)性體現(xiàn)在 x_1 和 x_2 的圓圈重疊部分非常大(即 D + E 的面積非常大)。


f14.png


由 OLS 可知,由于 D 部分是被污染的信息,因此在估計(jì) b_1 和 b_2 時(shí)被舍棄了。如果 D 的面積非常大(解釋變量高度相關(guān)),那么剩余的面積(上圖中的 B 和 F)就會(huì)很少,相當(dāng)于只有很少的信息用來(lái)估計(jì) b_1 和 b_2,因此可想而知估計(jì)誤差就會(huì)更高。在極端情況下,當(dāng) x_1 和 x_2 完全共線(xiàn)性時(shí)(即代表它們的兩個(gè)圓圈完全重合),則 B 和 F 均消失,這時(shí)將沒(méi)有任何信息用來(lái)估計(jì) b_1 和 b_2。依照上一節(jié)給出的 var(\hat b_i) 的直觀(guān)解釋?zhuān)瑅ar(\hat b_1) 和 var(\hat b_2) 分別滿(mǎn)足:



當(dāng)存在高度共線(xiàn)性時(shí),B、C、F、G 都會(huì)變得非常小,因此上述中的分母就會(huì)非常小,導(dǎo)致很大的方差。但需要強(qiáng)調(diào)的是,即便存在高度共線(xiàn)性,但上述 OLS 中 b_1 和 b_2 的估計(jì)也是無(wú)偏的,因?yàn)橐廊粌H使用了 B 和 F 來(lái)分別估計(jì),而沒(méi)有用到被污染的信息 D。另一方面,由 R-squared 的定義可知,在計(jì)算它時(shí)無(wú)需剔除 D。因此,這將會(huì)造成一個(gè)非常有意思的現(xiàn)象,即當(dāng)高度共線(xiàn)性存在時(shí),R-squared 很大(即所有解釋變量有很好的共同解釋力),但每個(gè)解釋變量的回歸系數(shù)卻都不顯著(因?yàn)?standard error 太大)。在實(shí)際數(shù)據(jù)中,如果發(fā)現(xiàn)這個(gè)現(xiàn)象,很可能是多重共線(xiàn)性惹的禍。


既然談到相關(guān)性,再捎帶手聊一下正交化的問(wèn)題。假設(shè)使用 x_2 對(duì) x_1 回歸,求出殘差作為正交化之后的 x_2,記為 ox_2。下圖中右側(cè) Venn diagram 中的紅色“月牙”就是 ox_2,綠色是不受影響的 x_1。


f16.png


從 Venn diagram 不難看出,當(dāng)不正交化時(shí)(上方左圖),會(huì)使用 B 和 F 分別估計(jì) b_1 和 b_2;而當(dāng)對(duì) x_2 正交化之后(上方右圖),則會(huì)使用 B + D 估計(jì) b_1、使用 F 來(lái)估計(jì) b_2。因此對(duì) x_2 正交化對(duì) b_2 的估計(jì)是沒(méi)有影響的,但其依然會(huì)影響 b_1 的估計(jì)結(jié)果。以下是一個(gè)簡(jiǎn)單的例子說(shuō)明上述這一點(diǎn)。


f17.png


由于正交化后的 ox_2 和 x_1 不相關(guān)(體現(xiàn)在圖上就是兩者不相交),因此模型一(僅有 x_1)和模型三(包含 x_1 和 ox_2)中 b_1 的估計(jì)值是一樣的。另一方面,由于正交化 x_2 不改變 x_2 的估計(jì),因此在模型二(包含 x_1 和 x_2)和三中,b_2 的估計(jì)值是一樣的。最后,由于在模型三中,x_2 被正交化,因此 B + D 被用來(lái)估計(jì) b_1,因此相比模型二,其估計(jì)值的 standard error 更低。


6?遺漏變量


通過(guò)下圖解釋遺漏變量問(wèn)題。假設(shè)解釋變量 x_1、x_2 以及被解釋變量 y 的關(guān)系如 Venn diagram 所示,并考慮圖中兩個(gè)模型,其中模型一因?yàn)閮H考慮了 x_1,因此存在遺漏變量問(wèn)題。


f18.png


對(duì) x_1 的系數(shù) b_1 來(lái)說(shuō),在這兩個(gè)模型中,其 OLS 估計(jì)分別為:



由于遺漏變量,第一個(gè)模型錯(cuò)誤的使用 D 所包含的信息(被污染的信息),因此第一個(gè)模型中 b_1 的估計(jì)是有偏的(例外是 x_1 和 x_2 不相關(guān),則 D 不存在)。然而,遺漏變量也并非都是缺點(diǎn),其優(yōu)點(diǎn)(姑且算作優(yōu)點(diǎn))是由于更多的信息(D)被用來(lái)估計(jì) b_1,因此它的 standard error 更低。另一點(diǎn)值得說(shuō)明的是,當(dāng)遺漏 x_2 時(shí),由 Venn diagram 可知,圖中 A + F 的面積被錯(cuò)誤的當(dāng)作擾動(dòng)項(xiàng) e 的方差;而實(shí)際當(dāng)同時(shí)使用 x_1 和 x_2 時(shí),其方差應(yīng)為 A。遺漏變量造成擾動(dòng)項(xiàng) e 的方差被高估。


最后,若 x_1 和 x_2 不相關(guān)時(shí)(下圖;解釋變量不相關(guān)體現(xiàn)在 Venn diagram 上代表 x_1 和 x_2 的兩個(gè)圓圈沒(méi)有重疊),則遺漏 x_2 不會(huì)對(duì) b_1 的估計(jì)造成影響。這是因?yàn)闊o(wú)論是 y 僅對(duì) x_1 回歸還是同時(shí)對(duì) x_1 和 x_2 回歸,在估計(jì) b_1 時(shí)用到的均是 B 的信息。由于 x_1 和 x_2 不相關(guān),因此區(qū)域 B 不受 x_2 的影響。


f20.png


7?結(jié)語(yǔ)


通過(guò)利用 Venn diagram,人們很容易搞懂共線(xiàn)性、遺漏變量造成的問(wèn)題,并直觀(guān)的感受 R-squared、回歸系數(shù)估計(jì)以及其誤差的高低。照例總結(jié)一下:當(dāng)存在共線(xiàn)性時(shí),估計(jì)依然是無(wú)偏的,但是 standard error 會(huì)變大;而當(dāng)存在遺漏變量且遺漏的變量和現(xiàn)有的解釋變量相關(guān)時(shí),那么估計(jì)將會(huì)是有偏的、但 standard error 會(huì)降低,且 y 的擾動(dòng)項(xiàng)的方差會(huì)被高估。


不過(guò) Venn diagram 也絕非無(wú)所不能。比如圖中重疊的部分僅僅表示兩個(gè)變量之間存在相關(guān)性,但它無(wú)法說(shuō)明是正相關(guān)還是負(fù)相關(guān)。無(wú)論如何,Venn diagram 為加深人們對(duì)多元回歸模型的 OLS 估計(jì)的理解提供了非常直觀(guān)的思路,是一個(gè)非常好用的思考工具。希望本文的介紹能帶給你這種體會(huì)。



參考文獻(xiàn)

Cohen, J. and P. Cohen (1975). Applied Multiple Regression/Correlation Analysis for the Behavioral Science. Hillside, NJ: Lawrence Erlbaum Associates.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests.?Journal of Political Economy 81(3), 607 – 636.

Ip, E. H. S. (2001). Visualizing multiple regression. Journal of Statistics Education 9(1).

Kennedy, P. E. (1981). The “Ballentine”: A graphical aid for econometrics. Australian Economic Papers 20(37), 414 – 416.

Kennedy, P. E. (2002). More on Venn Diagrams for regression. Journal of Statistics Education 10(1).

邱嘉平 (2020). 因果推斷實(shí)用計(jì)量方法.?上海財(cái)經(jīng)大學(xué)出版社.



免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。