Cross-Section Research, Looking Forward

發(fā)布時間：2024-08-23 | 來源: 川總寫量化

作者：石川

摘要：機(jī)器學(xué)習(xí)和大數(shù)據(jù)時代，資產(chǎn)預(yù)期收益截面差異研究的統(tǒng)一框架。

早先的文章《Cross-Section Research, A History》回顧了自上世紀(jì) 60 年代以來關(guān)于股票預(yù)期收益率 cross-section 的研究，包括 CAPM 以及后來的 FF3、q-factor model 這些 ad-hoc 多因子模型。該文的最后同時引出了當(dāng)下流行的動態(tài) latent beta factor model 框架：

? $R_{i,t+1}^e=\boldsymbol{\beta}(\mathbf{c})_{i,t}^\top\mathbf{F}_{t+1}+e_{i,t+1}.$ ?

在這個框架中，因子是 latent，建模的對象是資產(chǎn)對因子的暴露? $\boldsymbol{\beta}$ ?，而? $\boldsymbol{\beta}$ ?是 firm characteristics? $\mathbf{c}$ ?的線性或非線性函數(shù)，函數(shù)的具體形式和參數(shù)可以通過機(jī)器學(xué)習(xí)算法，以最小化資產(chǎn)的定價誤差為目標(biāo)函數(shù)來估計。

鑒于 beta pricing model 和 stochastic discount factor（SDF）的等價性，本文從 SDF 的角度進(jìn)一步梳理這個統(tǒng)一的研究框架，它能夠?qū)?dāng)下眾多基于機(jī)器學(xué)習(xí)的實證資產(chǎn)定價模型納入其中，代表了 cross-section research 的未來。

在解讀框架之前，首先要回答的是為什么需要框架。這個問題的答案是：新時代的實證資產(chǎn)定價研究是以大數(shù)據(jù)為依托、以機(jī)器學(xué)習(xí)算法為工具，圍繞資產(chǎn)定價理論展開；而非將數(shù)據(jù)無腦扔進(jìn)高級算法，單純指望數(shù)據(jù)發(fā)聲。因此，唯有放在框架下探討前沿進(jìn)展，才能理解不同方法之間的共性和差異，從而將學(xué)術(shù)研究的最新發(fā)現(xiàn)映射到投資實務(wù)之中。

讓我們從條件 SDF 說起：

? $\displaystyle M_{t+1}=1-\sum_{i=1}^N w_{i,t}R_{i,t+1}^e=1-\boldsymbol{w}_t^\top\mathbf{R}_{t+1}^e.$ ?

將權(quán)重? $w_{i,t}$ ?視為公司特征? $\mathbf{c}_{i,t}$ ?的函數(shù)：

? $w_{i,t}=f(\mathbf{c}_{i,t}),$ ?

式中? $f$ ?是非線性函數(shù)，? $L$ ?維向量? $\mathbf{c}_{i,t}$ ?則表示? $t$ ?期公司? $i$ ?的公司特征取值。當(dāng)然，? $f$ ?是未知的。因此，為了構(gòu)造 SDF，使用一系列 managed portfolios 來近似? $f$ ?：

? $\displaystyle f(\mathbf{c}_{i,t})\approx\sum_{k=1}^K b_kf_k(\mathbf{c}_{i,t}).$ ?

式中，? $f_k(\mathbf{c}_{i,t})$ ?表示第? $k$ ?個 managed portfolio 中股票? $i$ ?的權(quán)重。值得注意的是，managed portfolios 的維數(shù)是? $K$ ?，它可以比? $L$ ?小很多。這些 managed portfolios 就是我們常說的因子。所以從因子的角度來說，SDF 可以是稀疏的，但是從原始變量的角度來說，SDF 并不稀疏。且這些 managed portfolios 可能是公司特征的非線性函數(shù)。

利用 managed portfolios，將原始 SDF 轉(zhuǎn)化成如下靜態(tài)模型：

? $\displaystyle M_{t+1}=1-\sum_{i=1}^N b_k \tilde{R}_{i,t+1}^e,$ ?

其中

? $\displaystyle \tilde{R}_{i,t+1}^e=\sum_{i=1}^N f_k(\mathbf{c}_{i,t})R_{i,t+1}^e.$ ?

上述模型之所以是靜態(tài)的，是因為系數(shù)? $b_k$ ?不包含下標(biāo)? $t$ ?，而模型的 dynamics 是通過 managed portfolios 中公司特征的變化來體現(xiàn)的。該靜態(tài)模型就構(gòu)成了我們的研究框架。不同的定價模型代表了真實 SDF 所包含的風(fēng)險因子的不同先驗。以人們熟悉的 Fama-French 三因子為例。在這個框架下，公司特征為 market cap 和 book-to-market ratio，而? $f_k$ ?為 double portfolio sort。

在這個框架下，新時代實證資產(chǎn)定價的研究目標(biāo)為：以最大化 MVE 組合樣本外夏普比率為目標(biāo)，選擇含有收益率預(yù)測信息的公司特征? $\mathbf{c}$ ?、構(gòu)造 managed portfolios? $f_k$ ?、以及估計 SDF 系數(shù)? $b_k$ ?。

以下兩節(jié)分別探討? $\mathbf{c}$ ?和? $f_k$ ?兩部分。而對于系數(shù)? $b_k$ ?，可通過 mean-variance optimization 疊加正則化的方式，確保樣本外穩(wěn)健的表現(xiàn)。

關(guān)于? $\mathbf{c}$ ?，與股票預(yù)期收益率相關(guān)的協(xié)變量是高維的（量價數(shù)據(jù)、財務(wù)數(shù)據(jù)、分析師一致預(yù)期、輿情數(shù)據(jù)、另類數(shù)據(jù)），且協(xié)變量與預(yù)期收益率之間存在非線性關(guān)系，特別是協(xié)變量間的交互作用（例如，學(xué)界和業(yè)界常見的市值和另一個變量雙重排序）。為了尋找協(xié)變量，學(xué)界的思潮主要圍繞以下幾個方面。

第一，針對多重假設(shè)檢驗問題進(jìn)行調(diào)整（Harvey 2017，Harvey, Liu and Zhu 2016）。在這方面，盡管這幾年更多的聲音是學(xué)術(shù)發(fā)現(xiàn)大部分 are likely true（Jensen, Kelly, and Pedersen 2023），但我個人更支持 Harvey and Liu 的觀點。對這個問題，根據(jù)經(jīng)驗和對數(shù)據(jù)的理解、使用合理的先驗（即真實因子的百分比）才能得到對于投資實踐有益的結(jié)論。而基于 ensemble null 假設(shè)的數(shù)學(xué)推導(dǎo)游戲（Chen 2021）毫無意義。

第二，投資者面臨的高維學(xué)習(xí)問題（Martin and Nagel 2022）。理性預(yù)期假設(shè)投資者知道真實的估值模型。然而，投資者面臨高維學(xué)習(xí)問題，不可能知道真實的估值模型。這會造成均衡狀態(tài)下資產(chǎn)價格和理性預(yù)期情況下相比出現(xiàn)偏差。因此，在事后（ex post）分析中，已實現(xiàn)收益率中包含一部分因估計誤差導(dǎo)致的可預(yù)測成分。而對投資者來說，事前（ex ante）無法利用上述可預(yù)測性。事后分析中發(fā)現(xiàn)的可預(yù)測性是虛假的。在這方面，最直觀的例子就是將當(dāng)下的技術(shù)手段所進(jìn)行的高級數(shù)據(jù)分析應(yīng)用于歷史數(shù)據(jù)中，而歷史數(shù)據(jù)那個時期并不存在同樣的分析手段或者投資者使用該手段的成本極高。

第三，由 APT 可知，解釋資產(chǎn)預(yù)期收益率的協(xié)變量應(yīng)能解釋資產(chǎn)的共同運動（Kozak, Nagel, and Santosh 2018）。所以，協(xié)變量應(yīng)該和資產(chǎn)收益率的一階矩以及二階矩都有關(guān)。在這個背景下，同時考慮一階矩和二階矩信息的方法（例如 risk-premium PCA）取得了很好的實證結(jié)果。

再來看? $f_k$ ?。

傳統(tǒng)的構(gòu)造方法以來 portfolio sort（這主要歸功于 Fama and French 的開創(chuàng)性工作）。而顯然，在協(xié)變量的高維數(shù)時代，進(jìn)行高維的 portfolio sort 是不切實際的。所以，當(dāng)下的解決方案是 embrace machine learning。

然而，由于金融數(shù)據(jù)的信噪比極低以及不滿足平穩(wěn)性（即 alpha 會因為被交易掉而消失），導(dǎo)致 parameter scaling, regularization, cost function……每個選擇都可能影響機(jī)器學(xué)習(xí)模型在樣本外風(fēng)險收益特征（Nagel 2021）。對此，學(xué)術(shù)界的一致觀點是 off-the-shelf 的機(jī)器學(xué)習(xí)算法難以成功，而是要通過適當(dāng)?shù)耐緩阶⑷虢?jīng)濟(jì)學(xué)理論（例如使用貝葉斯框架）。例如，實證分析表明 ridge regression 比 OLS 在樣本外能夠獲得更高的? $R^2$ ?和 Sharpe Ratio。這是因為 Ridge regression 背后有優(yōu)雅的貝葉斯收縮解釋。

此外，No-Free-Lunch 定理對于資產(chǎn)定價研究同樣適用。不同的模型和不同的協(xié)變量選擇，代表了研究者關(guān)于 SDF 的不同先驗，也會有不同的實證結(jié)果。僅僅以實證結(jié)果為依據(jù)來挑選模型只能陷入 model-hacking。

在本文所描述的框架下，我們很容易理解并比較近年來實證資產(chǎn)定價研究的最新發(fā)現(xiàn)。例如 Bryzgalova, Pelger and Zhu (2020) 的 asset pricing tree。該文通過 decision tree 構(gòu)造 managed portfolios，而在估計權(quán)重系數(shù)? $b_k$ ?時，同時收縮 managed portfolios 的預(yù)期收益和協(xié)方差矩陣。又比如 Chen, Pelger and Zhu (2020) 使用生成對抗網(wǎng)絡(luò)來構(gòu)造 managed portfolios。此外，IPCA 或者 autoencoder 等模型則可以放在和 SDF 等價的 latent beta factor model 下來對比。在統(tǒng)一的框架下審視這些方法無疑會加深我們的理解。

讓我們重申一下機(jī)器學(xué)習(xí)時代的實證資產(chǎn)定價研究。和傳統(tǒng)的 ad-hoc 多因子模型以最小化樣本內(nèi)的 pricing errors 不同，它們以最大化樣本外條件夏普比率為目標(biāo)。機(jī)器學(xué)習(xí)算法可以同時處理大量解釋變量、考慮變量和預(yù)期收益率的非線性關(guān)系，但使用時需施加經(jīng)濟(jì)學(xué)推理。近年來，學(xué)術(shù)界利用 SDF 框架或隱性因子模型范式，提出包含大量公司特征的定價模型，這種趨勢代表了實證研究的未來。

最后，once again，一圖勝千言。

微信圖片_20240826221058.png

參考文獻(xiàn)

Bryzgalova, S., M. Pelger, and J. Zhu (2020). Forest through the trees: Building cross-sections of stock returns. Working paper.

Chen, A. Y. (2021). The limits of p-hacking: Some thought experiments. Journal of Finance 76(5), 2447–2480.

Chen, L., M. Pelger, and J. Zhu (2020). Deep learning in asset pricing. Management Science forthcoming.

Harvey, C. R. (2017). Presidential Address: The scientific outlook in financial economics.?Journal of Finance 72(4), 1399–1440.

Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns.?Review of Financial Studies 29(1), 5–68.

Jensen, T. I., B. T. Kelly, and L. H. Pedersen (2023). Is there a replication crisis in finance? Journal of Finance 78(5), 2465–2518.

Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models. Journal of Finance 73(3), 1183–1223.

Martin, I. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145(1), 154–177.

Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton University Press.

免責(zé)聲明：入市有風(fēng)險，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

Cross-Section Research, Looking Forward