實(shí)證研究 —— A 股上顯著的風(fēng)格因子
發(fā)布時(shí)間:2018-12-18 | 來(lái)源: 川總寫量化
作者:石川
摘要:本文檢驗(yàn)了 A 股市場(chǎng)上主流風(fēng)格因子的顯著性。以中證 500 指數(shù)為例,顯著的風(fēng)格因子包括 beta、earnings yield 以及 liquidity。
1 引言
前文《解釋股票截面預(yù)期收益差異的獨(dú)立因子》介紹了 Review of Financial Studies 上發(fā)表的 Green, Hand and Zhang (2017) 一文(以下稱 GHZ)。該文使用 Fama-MacBeth regression(Fama and MacBeth 1973)同時(shí)檢驗(yàn)了 94 個(gè)美股上的因子,并發(fā)現(xiàn)了 12 個(gè)能夠解釋股票預(yù)期收益率截面差異的顯著因子。
本文按照 GHZ 的思路對(duì) A 股上的風(fēng)格因子進(jìn)行簡(jiǎn)單實(shí)證,看看到底哪些因子是顯著的。為了使實(shí)證結(jié)果更有指導(dǎo)價(jià)值,本文選用中國(guó)市場(chǎng)上主流的風(fēng)格因子進(jìn)行討論。在針對(duì) A 股的因子研究中,MSCI 旗下的 Barra 大概是最知名的 —— 這主要因?yàn)樗?marketing 做的比較好;比如 MSCI 在今年 8 月底在北京、深圳、香港三地同時(shí)高調(diào)發(fā)布了最新的中國(guó)模型 CNE6。除了 MSCI 之外,國(guó)內(nèi)也有一些優(yōu)秀的風(fēng)險(xiǎn)因子數(shù)據(jù)提供商,這些本土化的風(fēng)格因子模型由于更接地氣,也廣泛被市場(chǎng)認(rèn)可。
根據(jù) GHZ 提出的方法,檢驗(yàn)顯著因子的過(guò)程包括如下步驟:
1.?通過(guò)在每一期進(jìn)行截面回歸得到所有風(fēng)格因子收益率的時(shí)間序列(即 Fama-MacBeth regression);
2. 對(duì)每個(gè)因子,求出收益率的均值以及均值的標(biāo)準(zhǔn)誤;
3. 計(jì)算每個(gè)因子的 t-statistic 以及 p-value;
4. 由于 multiple testing(即同時(shí)檢驗(yàn)多個(gè)因子)的影響,對(duì) p-value 進(jìn)行修正;
5. 根據(jù)修正后的 p-value 是否小于 0.05 判斷顯著的因子。
下面以中證 500 成分股為例,分析風(fēng)格因子在其上的顯著性。行文將逐一說(shuō)明上述步驟。
2 因子收益率
在因子顯著性檢驗(yàn)中,最重要的無(wú)疑是獲得靠譜的因子收益率時(shí)序數(shù)據(jù)。在實(shí)證中,我們采用米筐科技提供的因子收益率數(shù)據(jù)。作為國(guó)內(nèi)領(lǐng)先的量化投資數(shù)據(jù)和解決方案提供商,米筐高質(zhì)量的風(fēng)險(xiǎn)因子模型一共包括 39 個(gè)因子,其中市場(chǎng)聯(lián)動(dòng)因子 1 個(gè),申萬(wàn)一級(jí)行業(yè)因子 28 個(gè),風(fēng)格因子 10 個(gè)。此外,為了更好的捕捉風(fēng)格因子在不同指數(shù)上表現(xiàn)的差異,米筐提供了以常用指數(shù)(包括滬深 300、中證 500、中證 800)的成分股以及全市場(chǎng)為股票池的因子收益率數(shù)據(jù)。
實(shí)證的回測(cè)期從 2010 年 1 月 1 日到 2018 年 11 月 30 日。這 10 個(gè)風(fēng)格因子包括:beta、 book-to-price、earnings yield、growth、leverage、liquidity、momentum、nonlinear size、residual volatility 以及 size。這些風(fēng)格因子事實(shí)上是 10 大類因子,每一大類內(nèi)部又有進(jìn)一步的細(xì)分因子。這 10 大類因子間進(jìn)行了必要的正交化處理,相關(guān)性較低。本文的實(shí)證使用這 10 大類因子,而非更細(xì)分的小因子。在計(jì)算因子收益率時(shí),該模型使用全部 39 個(gè)因子在每一期進(jìn)行截面回歸(即 Fama-MacBeth regression),保證了得到的風(fēng)格因子投資組合是這些因子的純因子組合,從而排除對(duì)別的因子的暴露、更好的評(píng)價(jià)目標(biāo)因子獲取超額收益的效果。在實(shí)證的回測(cè)期內(nèi),中證 500 指數(shù)上因子日頻收益率如下所示。
有了收益率的時(shí)間序列,我們接下來(lái)計(jì)算收益率均值和均值的標(biāo)準(zhǔn)誤。
3 收益率均值和均值標(biāo)準(zhǔn)誤
在 GHZ 這篇文章中,檢驗(yàn)美股上有效因子的頻率是月頻。而我們使用的因子收益率是日頻 —— 因?yàn)樵撃P妥钪匾氖菍?duì)風(fēng)險(xiǎn)建模。為了在 A 股上復(fù)現(xiàn) GHZ 的研究思路,我們先進(jìn)行必要的處理,計(jì)算月頻因子收益率的期望以及標(biāo)準(zhǔn)誤。對(duì)于收益率,使用每個(gè)月內(nèi)所有交易日的累積收益率作為該因子的月頻收益率。對(duì)月頻收益率在時(shí)序上取均值就得到月均收益率,記為?μ。為了計(jì)算收益率均值的 standard error,首先需要求出月頻收益率的標(biāo)準(zhǔn)差(standard deviation)。為此,本文借鑒 Barra 的處理方法,即計(jì)算日頻收益率的標(biāo)準(zhǔn)差,并將其推廣到月頻。
在計(jì)算日頻收益率的標(biāo)準(zhǔn)差時(shí),必須要主要到因子收益率在時(shí)間序列上存在很強(qiáng)的自相關(guān)性,這會(huì)影響收益率標(biāo)準(zhǔn)差的計(jì)算。以 beta、book-to-price、earnings yield 以及 growth 四個(gè)因子為例,下圖顯示了其因子收益率的自相關(guān)系數(shù)隨滯后期的變化。每個(gè)圖中陰影部分為 5% 的置信區(qū)間。在很大的滯后期范圍內(nèi),日頻因子收益率均存在顯著的自相關(guān)性。
由于上述原因,在使用因子收益率時(shí)間序列計(jì)算其標(biāo)準(zhǔn)差時(shí),必須考慮對(duì)時(shí)序相關(guān)性進(jìn)行修正。為此,我們采用 Newey-West 調(diào)整(Newey and West 1987),在調(diào)整中選擇的最大滯后期為 50。令 s_d 表示經(jīng) Newey-West 調(diào)整后的日頻因子收益率的標(biāo)準(zhǔn)差(為了簡(jiǎn)化表達(dá)式,省略了表示具體某個(gè)因子的下標(biāo))。在得到日頻標(biāo)準(zhǔn)差之后,假設(shè)每個(gè)月內(nèi)有 22 個(gè)交易日并通過(guò)下式得到月頻因子收益率的標(biāo)準(zhǔn)差 s:
最后,使用月頻因子收益率的標(biāo)準(zhǔn)差計(jì)算出因子收益率均值的?standard error(n 表示月頻期數(shù)):
通過(guò)上述處理就可以求出我們關(guān)心的變量,因子月均收益率 μ 和它的標(biāo)準(zhǔn)誤 s.e.(μ)。實(shí)證中,中證 500 指數(shù)上這10個(gè)風(fēng)格因子的 μ 和 s.e.(μ) 分別如下表所示。
下面就來(lái)計(jì)算 t-statistic 以及 p-value。
4 t-statistic and p-value
有了 μ 和 s.e.(μ),根據(jù) t-statistic 的定義有:
由于月頻期數(shù)超過(guò) 100,因此 t 分布和正態(tài)分布十分接近,故采用正態(tài)分布將上述 t-statistic 轉(zhuǎn)化為 p-value。就一個(gè)因子是否顯著來(lái)說(shuō),我們關(guān)注的是它的 t-statistic 是否顯著不為零,其具體取值可正可負(fù)。從選股的角度來(lái)說(shuō),如果一個(gè)因子的收益率顯著為負(fù),那么只需要將它的多、空對(duì)調(diào)過(guò)來(lái)使用即可。因此,依照 GHZ 的計(jì)算方法,本文計(jì)算雙尾 p-value。具體的,由 t-statistic 計(jì)算 p-value 的方法如下:
上式中,Φ 表示標(biāo)準(zhǔn)正態(tài)分布的累積密度函數(shù)。中證 500 上 10 個(gè)風(fēng)格因子的 t-statistic 及 p-value 分別為:
5 修正 p-value
在檢驗(yàn)因子時(shí),multiple testing —— 同時(shí)檢驗(yàn)很多因子并找到其中最顯著的 —— 是一個(gè)嚴(yán)重的問(wèn)題。為了正確評(píng)價(jià)因子是否顯著,必須考慮 multiple testing 的影響、修正原始的 p-value。常見(jiàn)的修正方法分為兩類:1. 以控制 family-wise error rate(族錯(cuò)誤率)為目標(biāo)的 Bonferroni 和 Holm 修正;2. 以控制 false discovery rate 為目標(biāo)的 BHY 修正。Family-wise error rate(FWER)和 false discovery rate(FDR)代表著 Type I error 的兩個(gè)不同的定義。Type I error 是錯(cuò)誤的拒絕原假設(shè),也叫 false positive 或 false discovery。在我們的上下文中,它意味著錯(cuò)誤的發(fā)現(xiàn)了一個(gè)其實(shí)沒(méi)用的因子。
假設(shè) K 個(gè)因子的 p-value 分別為 p_1、p_2、…、p_K。根據(jù)事先選定的顯著性水平,比如 0.05,其中 R 個(gè)因子在單因子測(cè)試中被認(rèn)為是顯著的。換句話說(shuō),我們有 R 個(gè)發(fā)現(xiàn)(discoveries) —— 包括 true discoveries 和 false discoveries。令 N_r ≤ R 代表 false discoveries 的個(gè)數(shù)。FWER 和 FDR 的定義如下:
從定義不難看出,FWER 是至少出現(xiàn)一個(gè) false discovery 的概率,控制它對(duì)圍繞單一因子的假設(shè)來(lái)說(shuō)是相當(dāng)嚴(yán)格的,會(huì)大大提升 Type II Error。相比之下,FDR 控制的是 false discoveries 的比例,它允許 N_r 隨 R 增加,是一種更溫和的方法。此外,BHY 方法對(duì)檢驗(yàn)統(tǒng)計(jì)量之間的相關(guān)性不敏感,它的適應(yīng)性更強(qiáng)。無(wú)論采用哪種方法,修正后的 p-value 通常大于單一因子測(cè)試中得到的 p-value,因此會(huì)有相當(dāng)一部分在單一檢驗(yàn)中存活下來(lái)的因子在修正后不再顯著。
依照 GHZ 使用的方法,本文采用 BHY 修正(Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001)。它從諸多因子的原始 p-value 中最大的一個(gè)開(kāi)始逆向修正,公式如下:
由定義可知,原始 p-value 最大的因子調(diào)整后的 BHY p-value 就是它自己。從第二大 p-value 開(kāi)始,依次按照上述公式計(jì)算,計(jì)算其他因子調(diào)整后的 BHY p-value。在中證 500 的例子中,這 10 個(gè)因子經(jīng)調(diào)整后的 p-value 分別如下所示(紅色標(biāo)注出了調(diào)整后 p-value 小于 0.05 的顯著因子);作為比較,同時(shí)給出了原始 p-value。
不難發(fā)現(xiàn),所有因子調(diào)整后的 p-value 均不小于原始 p-value。
6 顯著風(fēng)格因子
本文第 2 到第 5 小結(jié)的分析最終在中證 500 上發(fā)現(xiàn)了三個(gè)顯著因子: beta、earnings yield 以及 liquidity;而其他七個(gè)風(fēng)格因子均無(wú)法獨(dú)立解釋中證 500 成分股預(yù)期收益率的截面差異。把這 10 個(gè)風(fēng)格因子的累積收益率作圖如下??梢钥吹剑@三個(gè)因子(liquidity 需要多、空對(duì)調(diào)過(guò)來(lái)用)的效果確實(shí)強(qiáng)于其他七個(gè)因子。在使用了純因子模型(Fama-MacBeth regression)并考慮了 multiple testing 帶來(lái)的修正之后,人們熟知的 book-to-price、size 以及 residual volatility 等因子在中證 500 上則不再顯著。
除了中證 500 指數(shù)外,米筐還提供滬深 300、中證 800 以及全市場(chǎng)上的風(fēng)格因子收益率。最終,按照上述檢驗(yàn)思路可以計(jì)算出不同選股池上的顯著因子,結(jié)果如下。
7 結(jié)語(yǔ)
本文使用 GHZ 的方法檢驗(yàn)了 A 股市場(chǎng)上主流的 10 大風(fēng)格因子的顯著性??缡袌?chǎng)而言,顯著的因子包括 beta、earnings yield、liquidity、nonlinear size 以及 residual volatility;但這些風(fēng)格因子在不同指數(shù)上的效果也有所差別。需要說(shuō)明的是,無(wú)論是 Barra 的中國(guó)股票模型,還是本土化的優(yōu)秀因子模型,它們首先都是一個(gè)風(fēng)險(xiǎn)模型,其次才是也可以當(dāng)作收益率截面模型來(lái)用。這些模型最重要的作用是波動(dòng)率預(yù)測(cè)和投資組合的風(fēng)險(xiǎn)歸因。本文主要的目的是再次梳理檢驗(yàn)因子顯著性的流程,實(shí)證中涉及的這 10 大類因子未必就是最能捕捉 A 股市場(chǎng)上 asset pricing 機(jī)制的因子。感興趣的小伙伴可以嘗試更細(xì)分的因子。只不過(guò)在 multiple testing 的修正下,我們預(yù)期很多因子僅僅是“看上去很美”。
參考文獻(xiàn)
Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing.?Journal of the Royal Statistical Society?Series B 57, 289 – 300.
Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency.?Annals of Statistics?29, 1165 – 1188.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests.?Journal of Political Economy?81(3), 607 – 636.
Green, J., J. R. M. Hand, and X. F. Zhang (2017). The characteristics that provide independent information about average U.S. monthly stock returns.?Review of Financial Studies?30(12), 4389 – 4436.
Newey, W. K. and K. D. West (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix.?Econometrica?55(3), 703 – 708.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。