數(shù)據(jù)驅(qū)動的投資思想史
發(fā)布時間:2023-01-28 | 來源: 川總寫量化
作者:石川
摘要:推薦友王聞老師關(guān)于另類數(shù)據(jù)的新書姊妹篇《另類數(shù)據(jù):理論與實踐》與《另類數(shù)據(jù):投資新動力》。
0
數(shù)據(jù),無論它被賦予“傳統(tǒng)”還是“另類”的標簽,是投資中最重要的組成部分。沒有數(shù)據(jù)、沒有高質(zhì)量的數(shù)據(jù),再厲害的模型、再高效的算法也是徒勞。
在 CRSP 被建立之前,華爾街充斥著某某一夜暴富的傳說;而當 CRSP 出現(xiàn)之后,對股市的定量研究走上了臺面,Eugene Fama 的有效市場假說成為了范式。在 Compustat 被推出之前,人們對基本面數(shù)據(jù)和股票價格是否有任何聯(lián)系持懷疑態(tài)度;而應用 Compustat 數(shù)據(jù),Ball and Brown 通過 event study 證實公司盈余和股價之間的密切關(guān)聯(lián)。從此,會計學也體面地從研究記賬轉(zhuǎn)向研究財務信息如何影響資本市場。在 Odean 數(shù)據(jù)集(retail investor 交易賬戶數(shù)據(jù))普及之前,人們將 CAPM 或 Fama-French 三因子模型下的異象解釋為數(shù)據(jù)挖掘(data snooping)或風險補償?shù)漠a(chǎn)物;而以 Odean 數(shù)據(jù)集為研究目標的行為金融學的發(fā)展為各種因子和異象背后的成因提供了新的依據(jù)。在 I/B/E/S 分析師一致預期數(shù)據(jù)被完善之前,學界和業(yè)界研究股票 cross-section 的協(xié)變量焦點聚焦于來自基本面(比如 value)和技術(shù)面(比如 momentum);而 I/B/E/S Estimates 數(shù)據(jù)極大拓展了協(xié)變量的范疇,為資產(chǎn)定價和量化投資提供了不可或缺的增量信息。
……
我們可以把上面的排比段一直延續(xù)下去,而不斷涌現(xiàn)的數(shù)據(jù)集也向人們明確地傳達出兩個信號:(1)無論是 CRSP、Compustat、Odean 還是 I/B/E/S 數(shù)據(jù)集,在它們被提出之初,對于彼時投資者而言,均是全新的存在。雖然如今它們早已家喻戶曉,但在當初依然可以被視作不折不扣的“另類”數(shù)據(jù)。(2)新數(shù)據(jù)以及隨之而來的新的分析方法的出現(xiàn),不斷重新塑造并推動了人們對于金融市場的理解。
人們對于新數(shù)據(jù)的包容性接受和創(chuàng)造性使用,恰恰是一部由數(shù)據(jù)驅(qū)動的投資思想史。站在當下,面對數(shù)據(jù)在過往投資中發(fā)揮的作用,似乎怎么強調(diào)數(shù)據(jù)的重要性都不過分;而展望未來,我們又應該怎樣以客觀的眼光和科學的手段面對和使用新數(shù)據(jù)呢?為了回答這個問題,以數(shù)據(jù)的視角回顧一下投資方法論創(chuàng)新的發(fā)展,并以此為起點更好地迎接未來新數(shù)據(jù)帶來的想法創(chuàng)新和風險挑戰(zhàn)似乎成為了一個必然之舉。
這也正是今天我想鄭重推薦好友王聞老師和他的合作者孫佰清老師關(guān)于另類數(shù)據(jù)的新書姊妹篇《另類數(shù)據(jù):理論與實踐》與《另類數(shù)據(jù):投資新動力》的初衷。不過在那之前,先讓我們跟隨王老師的精彩描述,回顧一下數(shù)據(jù)驅(qū)動的投資思想史。我可以摸著良心說,這段回顧精彩紛呈?。ㄒ韵滦〗Y(jié)節(jié)選自《另類數(shù)據(jù):投資新動力》尾聲,有刪減,參考文獻有更新。另外我在適當?shù)牡胤?,加入?[川總寫量化]/[因子動物園] 公眾號之前創(chuàng)作的相關(guān)內(nèi)容的鏈接,供讀者參考。)
1
學術(shù)界通過數(shù)據(jù)來分析資本市場,可以追溯到 Alfred Cowles (1933)。Cowles 是《計量經(jīng)濟學》這本全球經(jīng)濟學頂刊的創(chuàng)辦人之一,他在這本期刊的第一卷上發(fā)表了題為《股市預測者能夠預測嗎?》的文章。在這篇文章中,Cowles 搜集了金融機構(gòu)推薦的股票、保險公司的股票交易記錄、《華爾街日報》中的社論以及金融機構(gòu)的投資通訊等四類“股市預測者”,通過那個時代能夠理解的數(shù)據(jù)分析工具,對文章標題的問題給了簡單明了的回答:“這是值得懷疑的”。十年之后,Cowles (1944) 在《計量經(jīng)濟學》發(fā)表的一項新的研究,其中使用了 15 年內(nèi)將近 7000 個預測數(shù)據(jù)。結(jié)果再次表明“沒有任何證據(jù)能夠證實,人們能夠成功預測股市的未來走勢”。
時間來到二戰(zhàn)之后,倫敦經(jīng)濟學院的統(tǒng)計學教授 Maurice Kendall (1953) 在《皇家統(tǒng)計學會雜志》這本歷史最悠久的統(tǒng)計學雜志上發(fā)表了《經(jīng)濟的時間序列分析》,在這篇文章中,Kendall 研究了股票市場和商品期貨市場的價格數(shù)據(jù),結(jié)果表明資產(chǎn)價格“序列的數(shù)字就好像是在‘漫游’”。Cowles-Kendall 的分析構(gòu)成了資產(chǎn)價格隨機游走假說的最初證據(jù)。按照古典經(jīng)濟學思想,價格是由供需決定的,在此基礎上通過蛛網(wǎng)模型刻畫的價格動態(tài)變化就會有著明確的變化模式。然而 Cowles-Kendall 的數(shù)據(jù)分析結(jié)果并沒有支持這種價格有規(guī)律變動的假說。
1960 年,芝加哥大學的 James Lorie 和 Lawrence Fisher 在美林證券的支持下,創(chuàng)立了證券價格研究中心(CRSP)。它與其說是研究中心,不如說是一個歷史股價的數(shù)據(jù)庫。一開始它顯然是那個時代的“另類”數(shù)據(jù)集,這并不妨礙它后來成長為全球金融市場數(shù)據(jù)研究中最常使用的數(shù)據(jù)庫。CRSP 的出現(xiàn)激發(fā)了更多學者開始關(guān)注金融市場的價格,很快金融市場的研究摒棄了古典經(jīng)濟學的價格理論,從經(jīng)濟學的邊緣走到了經(jīng)濟學的中心舞臺。
不久之后的 1964 年,麻省理工學院的教授 Paul Cootner 把相關(guān)文章匯編成冊,由此產(chǎn)生了當時影響深遠的第一本金融實證分析論文集:《股票價格的隨機特征》。在應用 CRSP 數(shù)據(jù)庫方面,芝加哥大學教授、2013 年諾貝爾經(jīng)濟學獎得主?Eugene Fama?絕對是關(guān)鍵性的人物。面對隨機游走的實證證據(jù),作為博士剛畢業(yè)不久的年輕人,F(xiàn)ama 在 1965 年的《商業(yè)雜志》上全文發(fā)表了其博士論文《股市價格行為》。這篇近 70 多頁的長文,一方面應用各種當時的統(tǒng)計技術(shù)分析價格,另一方面也對資產(chǎn)價格的隨機特征給出了直覺性的經(jīng)濟解釋:影響資產(chǎn)價格的關(guān)鍵是投資者的預期,而影響預期的則是信息,因為信息是以不可預見的方式到達市場,所以價格是隨機變動的。
這一簡單而又深刻的論述把預期、信息這些關(guān)鍵概念引入到資產(chǎn)價格分析中,打破了古典經(jīng)濟學圍繞供需論述價格形成機制的思想梏桎。幾年之后,F(xiàn)ama (1970) 把 1965 年文章的思想總結(jié)為“一個價格始終‘充分反映’可得信息的市場被稱為是‘有效的’”。至此,金融經(jīng)濟學領(lǐng)域中經(jīng)典的“有效市場假說”問世了。后來這個思想超出了金融學的范疇,延伸到社會科學的其他領(lǐng)域。
在有效市場假說形成的過程中,除了針對資產(chǎn)價格自身時間序列分析得到的隨機波動特征之外,另外一個重要脈線是事件研究(event study),也就是分析特定公司事件對股價的影響。顯然,事件研究需要使用能夠反映公司基本面的財報數(shù)據(jù),以及各種公司公告的資料。在這方面最為重要的數(shù)據(jù)庫是標準普爾這家金融服務商提供的 Compustat。
事件研究的起點(之一)是芝加哥大學的 Ray Ball 和西澳大學的 Phillip Brown 在 1968 年做的研究,他們應用 Compustat 數(shù)據(jù)庫,分析了公司盈余對股價的影響,結(jié)果表明當公司發(fā)布正向盈余時,股價就會迅速做出正向反應,反之亦然。這個發(fā)現(xiàn)進一步支持了資本市場是信息有效市場的假說。在當時信息經(jīng)濟學崛起的大背景下,Ball-Brown 的研究讓會計轉(zhuǎn)變成為一門研究財務信息是如何影響資本市場的學問。
有效市場假說的重點是資產(chǎn)價格的動態(tài)變化,那么資產(chǎn)價格在截面上(cross-section)的差異如何理解呢?上個世紀六十年代,諾獎得主 William Sharpe 和另外幾位學者先后獨立創(chuàng)立的資本資產(chǎn)定價模型(CAPM)為其奠定了理論基礎。CAPM 模型把資產(chǎn)(超額)預期收益率表示為市場風險溢價因子的線性函數(shù),因為只有一個因子,所以這個模型也被稱為單因子模型。進入到 70 年代后,諾獎得主 Robert Merton 以及另外一位(川總帶感情色彩地插一句:理應也成為諾獎得主的)金融研究大家 Stephen Ross 分別從均衡和套利這兩個核心思想出發(fā),創(chuàng)立了時跨資本資產(chǎn)定價模型(ICAPM)和套利定價理論(APT),這兩個模型都把資產(chǎn)預期收益率表示為多個因子的函數(shù),因此也被稱為多因子模型。
這些因子模型在數(shù)據(jù)中的表現(xiàn)如何呢?在這方面,我們不得不再次談及 Fama 的貢獻。1973 年,F(xiàn)ama 和 James MacBeth 通過應用 CRSP 數(shù)據(jù),在實證分析中得到了支持 CAPM 模型的證據(jù)。與此同時,這篇論文創(chuàng)立了以他們名字首字母命名的?Fama-MacBeth 回歸,后來也成為資產(chǎn)定價實證分析的經(jīng)典方法。
上個世紀 70 年代,金融學界建立起以有效市場假說和資本資產(chǎn)定價模型這兩個支柱為核心的標準范式,并且認為這個范式是牢不可破的。但是很快,一些學者開始使用更新的數(shù)據(jù)以及更新的統(tǒng)計方法來講述不同的故事:他們發(fā)現(xiàn)了背離前述經(jīng)典范式的異?,F(xiàn)象,簡稱異象(anomalies)。
異象研究首先挑戰(zhàn)了 CAPM 模型,其中的代表性研究是來自加拿大馬克馬斯特大學 Sanjoy Basu 和美國西北大學的 Rolf Banz。Basu (1977) 發(fā)現(xiàn)了市盈率這個指標和股票平均收益率存在著 CAPM 模型不能解釋的負向關(guān)系,后來學者也發(fā)現(xiàn)了其他一些市場價格和會計指標的比率也有類似效應,它們被統(tǒng)稱為價值效應;而 Ban (1981) 則發(fā)現(xiàn)以股票市值度量的公司規(guī)模要比股票貝塔更能解釋收益率的截面差異,由此產(chǎn)生了“規(guī)模效應”。
另一方面,就資產(chǎn)價格的時間序列來說,其隨機游走的性質(zhì)也受到挑戰(zhàn),這方面研究的代表人物是華人學者、現(xiàn)任麻省理工學院教授羅聞全(Andrew Lo),他和當時在沃頓商學院的合作者 Craig MacKinlay 合作發(fā)表了一系列的文章,用全新的統(tǒng)計方法研究股票價格的時間序列,所有這些研究后來匯集成冊,書名直指他們的核心結(jié)論:《非隨機游走降臨華爾街》。
從上個世紀 80 年代開始,整個資本市場的實證研究卷入到經(jīng)典范式和異象之間的爭論之中,就此產(chǎn)生了三大不同的學術(shù)流派。第一大流派可以看作是經(jīng)典范式的“忠誠者”,這一流派的基本思想是市場是完美的,市場中的參與者也是完美的,我們在數(shù)據(jù)中發(fā)現(xiàn)的各種“異象”只是各種數(shù)據(jù)挖掘的結(jié)果,因此存在著各種偏差,比如幸存者偏差、選擇偏差等。第二大流派是經(jīng)典范式的“革新者”,這一派的學者堅守新古典經(jīng)濟學的基本原則,認為市場參與者是理性的,市場以及我們分析市場的方法中存在著問題,比如實證分析中沒有考慮到各種交易成本導致的市場摩擦,以及?Roll 批評(Roll's Critique)等。最后一派的學者可以看作是經(jīng)典范式的“異教徒”,他們一方面認為市場是不完美的,但同時更進一步,他們背棄經(jīng)濟學傳統(tǒng)的個人理性原則:借鑒心理學中發(fā)現(xiàn)的各種心理偏誤,他們把資本市場的異象和個人非理性行為聯(lián)系起來,由此產(chǎn)生了行為金融學(behavioral finance)。
這場大爭論涉及了諸多金融頂尖學者,其中光譜兩端的代表人物,經(jīng)典范式的支持者 Eugene Fama 和異教徒 Robert Shiller,以及廣義矩估計這種資產(chǎn)價格實證分析方法的發(fā)明人 Lars Hansen,一起因為“在資產(chǎn)價格實證分析中的貢獻”而分享了 2013 年諾貝爾經(jīng)濟學獎。另外一位行為經(jīng)濟學的代表人物,同樣來自芝加哥大學的教授?Richard Thaler,也因為包括行為金融在內(nèi)的行為經(jīng)濟學貢獻,而獨享 2017 年諾貝爾經(jīng)濟學獎。
作為有效市場假說的提出者和堅定支持者,F(xiàn)ama 和他后期研究的主要合作者,來自達特茅斯學院的 Kenneth French,從 1992 年開始用一系列的文章,提出了基于數(shù)據(jù)驅(qū)動并且可以融入規(guī)模效應和價值效應的三因子模型,用以解釋當時市場中發(fā)現(xiàn)的各種異象(Fama and French 1992, 1993)。需要指出的是,F(xiàn)ama (1991) 在《有效資本市場:第 II 集》中曾把多因子模型看作是一個“事后從數(shù)據(jù)中尋找能夠描述平均收益率截面變量的許可證”(這后來也被學界戲稱為使得挖因子變得合理化的“釣魚許可證”(fishing license))。
就此而言,F(xiàn)ama 看起來對使用多因子模型來刻畫資本市場持謹慎保守的態(tài)度;但是面對著來自數(shù)據(jù)的持續(xù)挑戰(zhàn),他自己很快修正了一些立場,轉(zhuǎn)而使用多因子模型賦予的“釣魚許可證”去尋找可以解釋各種截面異象的因子以及因子模型了。在之后的多因子模型之爭中,F(xiàn)ama and French (2015) 在三因子模型基礎上加入了盈利因子和投資因子,從而把解釋收益率截面的因子模型擴展到五因子模型。對于這場從上個世紀 80 年代開始持續(xù)至今的大辯論,感興趣的讀者可以參閱瑞典皇家科學院撰寫的諾獎科學背景以及三位諾獎得主的頒獎演說。
在這場大辯論中,有一個另類數(shù)據(jù)特別有意義,這就是行為金融學者 Terrance Odean 使用的散戶投資者(retail investor)交易賬戶數(shù)據(jù),后來這個數(shù)據(jù)集也被稱為 Odean 數(shù)據(jù)集。這個數(shù)據(jù)集是由一個未署名的全美證券經(jīng)紀商提供的,通過這個數(shù)據(jù)集,Odean 和合作者進行了一系列微觀層面上散戶投資者實際交易行為的研究,這些研究在總體意義上表明,散戶投資者會持有相對集中的投資組合,他們交易很活躍,投機性很強,而這些行為會讓他們的投資績效不佳。另外,作為一個整體,散戶投資者會表現(xiàn)出系統(tǒng)性而非隨機性的交易行為。有關(guān)這些研究的綜述,讀者可以參考 Odean 和 Brad Barber 于 2013 年在《金融經(jīng)濟學手冊第二卷》上發(fā)表的綜述文章。
進入到新世紀第二個十年,大數(shù)據(jù)、人工智能和機器學習、云計算和量子計算等新興科技帶來的數(shù)據(jù)、算法和算力全方位的突破,極大地影響和改變了我們?nèi)祟惿鐣?,當然也包括金融市場的研究與實踐。面對技術(shù)突破,金融、財務和會計學的學術(shù)研究,不斷發(fā)現(xiàn)新的針對股票收益率的預測變量。來自芝加哥大學的 John Cochrane,在其 2011 年美國金融學會主席演講中,把不斷增加的收益率截面預測變量,稱為“因子動物園”(factor zoo)。
金融大數(shù)據(jù)產(chǎn)生的“因子動物園”給資產(chǎn)定價的實證研究帶來了極大的挑戰(zhàn)。首先,隨著因子動物園的擴充,一個顯而易見的統(tǒng)計挑戰(zhàn)是,在回歸方程中右側(cè)變量的個數(shù)在快速接近觀測值(以及觀測時段)的個數(shù),這樣傳統(tǒng)的低維統(tǒng)計分析便難以適用,我們需要使用更為復雜的高維統(tǒng)計分析方法(high/large dimensional statistics)。
其次,針對相同或者相近的數(shù)據(jù)集進行多個不同因子的檢驗,會帶來虛假的統(tǒng)計顯著性,進而造成?p-值操縱(p-hacking)和多重假設檢驗(multiple hypothesis testing)問題。在這方面,杜克大學 Campbell Havery 教授在 2017 年美國金融學會的主席演講上做了有力的說明,同時他還和華人學者劉巖撰寫了一系列文章探討這類資產(chǎn)定價實證研究中的問題。
第三,學者們實證研究中發(fā)現(xiàn)的預測變量和收益率之間的關(guān)系都是在事后從已觀測數(shù)據(jù)中得到的,因此存在著前瞻性偏差(look-ahead bias):站在事前,這些預測變量的預測效力以及它們和目標變量之間的關(guān)系并不必然是已知的,對于現(xiàn)實世界的投資者而言更是如此,這正是倫敦經(jīng)濟學院的 Ian Martin 和芝加哥大學的 Stefan Nagel 兩位學者提出的投資者學習(investor learning)問題(Martin and Nagel 2022)。
大數(shù)據(jù)時代產(chǎn)生了眾多可能存在的預測指標,在它們形成的高維環(huán)境中,多重假設檢驗和投資者學習的挑戰(zhàn)會變得更加嚴重。其核心問題是:資產(chǎn)定價的異象研究可能存在著“復制危機”(replication crises)。一方面,當使用略微不同的數(shù)據(jù)集或者數(shù)據(jù)分析方法時,異象是無法復制的,按照三位在美華人金融學者侯恪惟、薛辰和張櫓(Hou, Xue and Zhang 2020)?的說法:“大多數(shù)異象按照當前可接受的標準而言無法成立”。另一方面,這些異象在真正的樣本外可能是不存在的,用 Harvey, Liu and Zhu (2016) 的說法:“大多數(shù)金融經(jīng)濟學中聲稱的研究發(fā)現(xiàn)很可能是錯誤的”。
除了上面這些問題以外,來自法國和瑞士的三位金融學者 Dessaint, Foucault and Frésard (2022) 提出了另類數(shù)據(jù)存在著時長效應(horizon effect)問題。例如各種預測公司盈余這類財務指標的另類數(shù)據(jù),考慮到這些另類數(shù)據(jù)主要涉及短期信息,所以 DFF 把它們稱為短期導向數(shù)據(jù)(short-term oriented data)。由此而來產(chǎn)生的題是:這類數(shù)據(jù)可以改進財務預測嗎?通過使用賣方分析師的預測數(shù)據(jù),DFF 發(fā)現(xiàn)隨著另類數(shù)據(jù)逐漸進入投資世界,分析師們針對短期(短于 1 年)財務指標的預測質(zhì)量提升了,但是針對長期(長于 1 年)財務指標的預測質(zhì)量則是下降了,并且兩者產(chǎn)生的凈效應是模糊的。因為資產(chǎn)價格是短期和長期現(xiàn)金流折現(xiàn)的總和,這樣另類數(shù)據(jù)的價值也就存疑了。
在面對由另類數(shù)據(jù)帶來的高維環(huán)境中,應該如何應對上述學術(shù)研究的挑戰(zhàn)呢?學術(shù)界當前給出的答案是使用各種機器學習模型加以應對。芝加哥大學的華人學者顧詩顥、修大成以耶魯大學的 Bryan Kelly 在他們 2020 年刊發(fā)的經(jīng)典文章中,指出資產(chǎn)定價的機器學習方法可以用來描述:“(a) 用于統(tǒng)計預測的各種高維模型集合,(b) 用于模型選擇和緩解過擬合的正則化方法,以及 (c) 在大量可能存在的模型設定中有效的搜索算法”。近幾年來,應用正則化、決策樹、集成方法、深度學習和各種不同主成分分析的機器學習研究層出不窮。
此外,耶魯大學的 Stefano Giglio 以及 Kelly 和修大成在 2022 年發(fā)表了一篇綜述論文,其中總結(jié)了當前資產(chǎn)定價中機器學習方法的研究現(xiàn)狀,同時指出了未來的主要研究方向。不過,上述機器學習的方法并不能很好地解決前面提及的多重假設檢驗和投資者學習。
考慮到這一點,Nagel 教授在近期《高維世界評估市場有效性》的報告中提出使用實證貝葉斯方法(empirical Bayes method)來應對這兩個難題。該方法通過金融數(shù)據(jù)來形成相關(guān)的先驗信念,進而分析資產(chǎn)定價的可預測性問題,比如,Chinco, Neuhierl and Weber (2021) 根據(jù)已觀測數(shù)據(jù)來確定某個預測指標是異象的先驗概率分布,他們把這個概率稱為異象基率(anomaly base rate)。此外,實證貝葉斯方法還可以用來處理 Giannone, Lenza and Primiceri (2021) 提出的稀疏性幻覺(illusion of sparsity)的問題。所謂稀疏性,是指在當前主流的資產(chǎn)定價多因子模型中,通常只存在少數(shù)幾個定價因子。但是在高維環(huán)境下,稀疏性假設就不合理了,Bryzgalova, Huang and Julliard (2023)?采用貝葉斯方法支持了容許數(shù)十個因子的模型。最后,Jensen, Kelly and Pedersen (2022) 在最近一篇引發(fā)學界熱議的論文中,通過貝葉斯方法否定了“復制危機”的存在。從實際應用的角度來看,考慮到另類數(shù)據(jù)當下和將來帶來的大量潛在的預測指標,貝葉斯統(tǒng)計方法在高維環(huán)境的資產(chǎn)定價分析中會更有裨益。
從投資實務的角度來看,賺取風險調(diào)整后的超額收益是第一要務,因此構(gòu)造可以獲利的投資組合是最終目的。在包括回歸、決策樹以及神經(jīng)網(wǎng)絡這些主流的有監(jiān)督學習方法中,我們首先要估計收益率截面。在這方面,或許更為直接的方法是使用強化學習(reinforcement learning)這種具有無監(jiān)督特點的學習機制,它可以處理投資決策和市場之間的交互關(guān)系,從而在不需要考慮資產(chǎn)定價的情況下給投資組合進行建模。
此外(本段為川總所加),伴隨著協(xié)變量高維數(shù)問題的另一思潮是“越復雜越好”這一聽上去有些顛覆的觀點。2019 年,Belkin, et al. (2019) 發(fā)現(xiàn)了機器學習中樣本外誤差的“double descent”現(xiàn)象,引發(fā)了機器學習領(lǐng)域和理論統(tǒng)計領(lǐng)域的廣泛討論。該文指出當變量個數(shù) > 樣本個數(shù)時,樣本外總誤差并沒有“爆炸”,而是隨著復雜度的提升單調(diào)下降。這背后的直覺解釋是,模型越復雜,越是對真實世界的更優(yōu)近似,而這種近似帶來的好處在特定的情況下可以蓋過因?over-parameterization?造成的統(tǒng)計成本。在資產(chǎn)定價領(lǐng)域,Bryan Kelly 和他的合作者一起寫了一系列“復雜度美德”的論文(例如 Kelly, Malamud and Zhou 2022),從不同角度探討了探索提升復雜度對樣本外投資機會帶來的提升。當然,即便我們認同了“越復雜越好”,也依然要回答更重要的問題,即如何估計參數(shù),如何正則化,如何利用層出不窮的新數(shù)據(jù)來形成關(guān)于預期收益率更好的預測(即高維問題求解)。在這方面,通過貝葉斯框架將經(jīng)濟學推理注入機器學習算法是一條充滿前景的研究路徑(Nagel 2021)。
上面這些從象牙塔產(chǎn)生的由數(shù)據(jù)驅(qū)動的投資思想,無論是從隨機游走到有效市場假說,從異象到行為金融,從三因子模型到因子動物園,從回歸分析到機器學習,都深刻地影響和改變了人們對金融市場運行機制以及收益和風險之間權(quán)衡的理解。這些投資思想,催生了指數(shù)基金、市場中性、Smart Beta、因子投資、基本面量化等投資理念,讓金融市場成為社會大眾關(guān)注的焦點,讓金融研究成為社會科學中的顯學。
同樣地,我們也應該期待今天的另類數(shù)據(jù),能夠像今天的“數(shù)據(jù)”在過往歷史中那樣,發(fā)現(xiàn)前所未見的新規(guī)律,從而幫助我們在實務中形成新的投資理念,同時做出更好的投資決策。
2
溫故是為了知新。
回顧如今的“老數(shù)據(jù)”以及在歷史長河中為了應用它們而發(fā)展出來的各種投資方法論,是為了在未來更好地利用今天的“新數(shù)據(jù)”。
當前,投資進入了一個更加高度不確定性的時代。在這個時代,只有擁抱新數(shù)據(jù),并在這個過程中通過創(chuàng)新方法用好時下另類但在將來也注定普及的數(shù)據(jù),才能在細微之處把握金融市場跳動的脈搏,才能在青萍之末感受風的力度。
相信看到這里,數(shù)據(jù)的重要性對于你已經(jīng)不言而喻。而如果你也和我一樣期待開啟一段另類數(shù)據(jù)之旅,那么請讓我回歸本文的正題:《另類數(shù)據(jù):理論與實踐》以及《另類數(shù)據(jù):投資新動力》。這兩本書的出版,填補了中文文獻在投資另類數(shù)據(jù)方面的空白(官宣在此)。
《另類數(shù)據(jù):理論與實踐》共有 8 章,是一個統(tǒng)一的框架,體系化地介紹了另類數(shù)據(jù)的概念、分類、挑戰(zhàn)和風險、應用流程和價值等方面的內(nèi)容,并對不同類型的另類數(shù)據(jù)展開了詳細的說明。
《另類數(shù)據(jù):投資新動力》分為 5 章,更偏重應用,全方位地介紹了另類數(shù)據(jù)在金融市場中的應用,無論是文本數(shù)據(jù)、消費相關(guān)數(shù)據(jù)、傳感器數(shù)據(jù)、ESG 數(shù)據(jù)、投資者關(guān)注數(shù)據(jù)、商業(yè)洞察數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、位置數(shù)據(jù)等;無論是股票量化投資和主觀投資,利率和匯率投資,又或者是大宗商品投資中的應用,應有盡有。
在這兩本書出版之前,我曾有幸閱讀過初稿。它們給我的感受(如果只用兩個字總結(jié))是客觀,如果再加兩個字,那么是客觀和全面。
先說客觀。毫無疑問,無論對學界還是業(yè)界,另類數(shù)據(jù)是如今投資界的寵兒和熱點(比如,你如果沒點獨門數(shù)據(jù),想在 top 3 發(fā)實證研究幾乎沒戲了),但這兩本書并沒有所謂的“蹭熱點”、不負責任地鼓吹另類數(shù)據(jù)的好處,而是中立而系統(tǒng)的呈現(xiàn)另類數(shù)據(jù)的機會和挑戰(zhàn),這和我在《另類數(shù)據(jù)的前景與陷阱》中所傳達出的價值觀不謀而合。
再說全面。當人們說起另類數(shù)據(jù)的時候,可能本能的反應是兩眼放光,馬上會問它能不能產(chǎn)生風險因子無法解釋的 α。然而,這種想法僅僅局限于另類數(shù)據(jù)產(chǎn)業(yè)鏈末端的應用層面。對于另類數(shù)據(jù)這個大課題來說,數(shù)據(jù)是如何產(chǎn)生的、質(zhì)量和時效性如何,使用時是否有合規(guī)風險,如何評估其成本價值、市場價值、經(jīng)濟價值,其可預測性是短期的還是長期的,如何從基礎設施和人才儲備層面建設另類數(shù)據(jù)團隊,如何讓另類數(shù)據(jù)有機地融入到整個投研和交易過程(從而形成運營阿爾法)等都是同樣甚至更加重要的問題。對于這些問題,這兩本書給出了詳盡的說明。
正是因為“客觀和全面”這兩個我個人非??粗氐奶厣ㄏ嘈殴娞柕男』锇檎J可這個觀點),所以我愿意毫無保留地把它推薦給感興趣的小伙伴。希望它們能祝你在使用另類數(shù)據(jù)的道路上愈行愈遠,乘風破浪。
另類數(shù)據(jù)這個名詞出現(xiàn)的歷史并不很長,但是它背后蘊含的核心思想?yún)s并不新穎,而是自古有之:我們需要在不斷出現(xiàn)的另類數(shù)據(jù)中用適應時代的方法挖掘出新的投資見解,在不斷演化的金融市場中能夠長時間地獲取超額收益,從而在投資管理的激烈競爭中生存下來。
參考文獻
Ball, R. and P. Brown (1968). An empirical evaluation of accounting income numbers.?Journal of Accounting Research?6, 159 - 178.
Banz, R. (1981). The relationship between return and market value of common stocks.?Journal of Financial Economics?9, 3 - 18.
Barber, B. and T. Odean (2013). The behavior of individual investors. In G. Constantinides, M. Harris, and R. Stulz (eds.)?Handbook of the Economics of Finance?2. Elsevier BV.
Basu, S. (1977). Investment performance of common stocks in relation to their price-earnings ratios: A test of the efficient market hypothesis.?Journal of Finance?32, 663 - 682.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias-variance trade-off.?PNAS?116, 15849 - 15854.
Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models.?Journal of Finance?78, 487 - 557.
Chinco, A., A. Neuhierl, and M. Weber (2021). Estimating the anomaly base rate.?Journal of Financial Economics?140, 101 - 126.
Cochrane, J. H. (2011). Presidential address: Discount rates.?Journal of Finance?66, 1047 - 1108.
Cootner, P. (1964).?The Random Character of Stock Prices. MIT Press.
Cowles, A. (1933). Can stock market forecasters forecast??Econometrica?1, 309 - 324。
Cowles, A. (1944). Stock market forecasting.?Econometrica?12, 206 - 214.
Dessaint, O., T. Foucault, and L. Frésard (2022). Does alternative data improve forecasting? The horizon effect. Swiss Finance Institute Research Paper Series N. 20-106.
Fama, E. F. (1965).?The behavior of stock market prices.?Journal of Business, 34 - 105.
Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work.?Journal of Finance?25, 383 - 417.
Fama, E. F. (1991).?Efficient capital markets: II.?Journal of Finance?46, 1575 - 1617.
Fama, E. F. and K. R. French (1992).?The cross-section of expected stock returns.?Journal of Finance?47, 427 - 465.
Fama, E. F. and K. R. French?(1993). Common risk factors in the returns on stocks and bonds.?Journal of Financial Economics?33, 3 - 56.
Fama, E. F. and K. R. French?(2015). A five-factor asset pricing model.?Journal of Financial Economics?116, 1 - 22.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium.?Journal of Political Economy?81, 607 - 636.
Giannone, D., M. Lenza, and G. Primiceri?(2021).?Economic predictions with big data: The illusion of sparsity.?Econometrica?89, 2409 - 2437.
Giglio, S., B. Kelly, and D. Xiu (2022). Factor models, machine learning and asset pricing.?Annual Review of Financial Economics?14, 337 - 368.
Gu, S., B. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning.?Review of Financial Studies?33, 2223 - 2273.
Havery, C. R. (2017). Presidential address: The scientific outlook in financial economics.?Journal of Finance?72, 1399 - 1440.
Harvey, C. R., Y. Liu, and H. Zhu (2016). ... and the cross-section of expected returns.?Review of Financial Studies?29, 5 - 68.
Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies.?Review of Financial Studies?33, 2019 - 2133.
Jensen, T., B. Kelly, and L. Pedersen (2022). Is there a replication crisis in finance? Working paper.
Kelly, B., S. Malamud, and K. Zhou (2022). The virtue of complexity in return prediction. Working paper.
Kendall, M. (1953). The analysis of economic time-series. Part I: Prices.?Journal of the Royal Statistical Society?116, 11 - 34.
Lo, A. W. and A. C. MacKinlay (1999).?A Non-Random Walk down Wall Street. Princeton University Press.
Martin, I. and S. Nagel (2022).?Market efficiency in the age of big data.?Journal of Financial Economics?145, 154 - 177.
Nagel, S. (2021).?Machine Learning in Asset Pricing. Princeton University Press.
Nagel, S. (2022). Evaluating market efficiency in a high-dimensional world. Speech on Hong Kong Conference for Fintech, AI and Big Data Business.
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。