[置頂] 機器學習與資產(chǎn)定價
發(fā)布時間:2023-03-20 | 來源: 川總寫量化
作者:石川
摘要:一本大數(shù)據(jù)時代的實證資產(chǎn)定價方法前沿,請查收。
大數(shù)據(jù)時代,與資產(chǎn)預期收益率相關的協(xié)變量數(shù)量與日俱增。資產(chǎn)定價已然步入了協(xié)變量的高維數(shù)時代。在這個背景下,傳統(tǒng)計量經(jīng)濟學方法在利用諸多協(xié)變量以及它們的非線性變換來預測預期收益率方面稍顯遜色,而擅長處理這類問題的機器學習算法已悄然走進了實證研究和量化投資實踐之中。
然而,面對收益率數(shù)據(jù)低信噪比、不滿足平穩(wěn)性等問題,在其他領域大放異彩的機器學習算法在資產(chǎn)定價中并非即插即用。大到算法選擇,中到超參數(shù)調優(yōu),小到變量預處理,每一個決策都會影響機器學習算法在資產(chǎn)定價應用中的效果。為了獲得樣本外更好的結果,人們又應該依據(jù)什么來做出上述決策呢?
為了回答這些問題,讓我們從理論和實證資產(chǎn)定價的發(fā)展說起。
資產(chǎn)定價研究的核心目標之一是解釋不同資產(chǎn)預期收益率在截面上的差異。自 20 世紀 50 年代以來,學術界就該問題在理論和實證兩方面取得了大量的成果。在理論方面,研究表明了隨機貼現(xiàn)因子、均值—方差有效投資組合以及多因子模型之間的等價性;而在實證方面,以資本資產(chǎn)定價模型和 Fama-French 三因子模型為代表的因子模型更是引領了數(shù)十年的研究。
學術界在理論和實證方面的雙管齊下也為業(yè)界的投資實務建立了必要的秩序,使之從最初充斥著華爾街逸聞趣事或者“某某一夜暴富”的頭條故事的雜亂無章,演化至當前在金融經(jīng)濟學框架內(nèi),使用嚴謹?shù)臄?shù)據(jù)分析和統(tǒng)計檢驗已經(jīng)成為業(yè)界的研究范式。從多因子模型衍生出來的因子投資在投資實務中已經(jīng)占據(jù)了舉足輕重的地位,而利用諸如價值、規(guī)模、盈利、動量等因子區(qū)分不同資產(chǎn)預期收益率的差異、獲得更高的風險調整后收益這樣的認知更是深入人心。資產(chǎn)定價已然成為金融領域內(nèi)一個理論和實踐緊密聯(lián)系、相互交融的典型代表。
然而,在這片有序之下也并非沒有“暗流涌動”。首先,在實證方面,在過去的 10~20 年中,在發(fā)表偏差所導致的 p-hacking 問題驅使下,學術界制造了大量所謂的“市場異象”,它們中的每一個都在特定的實證設定下獲得了超額收益。仿佛就在一夜之間,成百上千個能為解釋資產(chǎn)預期收益率截面差異提供增量貢獻的協(xié)變量便如雨后春筍一般涌現(xiàn)出來。但這諸多變量到底代表了何種系統(tǒng)性風險?它們之間的相關性和帶有的預測信息的冗余度幾何?哪些能夠作為真正的定價因子?因子的風險價格又究竟是多少?與眾多協(xié)變量形成鮮明對比的是,人們對上述問題的理解卻十分貧瘠,這無疑令人尷尬。
數(shù)據(jù)量的激增進一步加劇了上述實證挑戰(zhàn)。如今,被用來預測收益率的潛在協(xié)變量的數(shù)量與日俱增。傳統(tǒng)的包括歷史量價數(shù)據(jù)、財務報表數(shù)據(jù)、分析師一致預期數(shù)據(jù),以及另類的包括新聞輿情數(shù)據(jù)、文本分析數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)等均能夠被拿來加工成各式各樣的預測變量。毫不夸張地說,就資產(chǎn)定價的研究而言,我們已經(jīng)步入了預測變量的高維數(shù)時代。而這樣一個大數(shù)據(jù)時代對傳統(tǒng)的計量經(jīng)濟學方法提出了巨大的挑戰(zhàn)——試想一下當協(xié)變量個數(shù)超過觀測樣本個數(shù)時,OLS 的無能為力。為了通過計量經(jīng)濟學方法得出可靠的結果,人們只能退而求其次在實證分析中施加人為的稀疏性假設,這意味著在多因子模型中僅考慮有限個因子,或在研究收益率截面預測問題中只同時考慮很少的變量。
類似的挑戰(zhàn)也存在于資產(chǎn)定價的理論方面。已有的、被學界和業(yè)界廣泛認可的統(tǒng)計檢驗方法和統(tǒng)計推斷結果均是建立在理性預期假設(即投資者已知現(xiàn)金流生成模型以及模型的參數(shù))之上的。這意味著事后樣本內(nèi)檢驗發(fā)現(xiàn)的收益率可預測性可以被安全地歸因為系統(tǒng)性風險補償或由投資者行為偏差而導致的錯誤定價??墒?,如果理性預期假設不滿足又會如何呢?在如今的大數(shù)據(jù)時代,既然對市場數(shù)據(jù)進行事后分析的統(tǒng)計者們面臨著高維預測變量問題,那么我們有同樣的理由相信在金融市場中實際交易的投資者(他們的交易行為產(chǎn)生了實實在在的價格數(shù)據(jù))也一定面臨類似的高維預測問題。而已有的資產(chǎn)定價理論模型并未將投資者置于如此復雜的環(huán)境之中,因為在該環(huán)境中理性預期假設不再成立。面對這種進退兩難的情形,我們是否真的無能為力?一旦在模型中放棄理性預期假設,對事后樣本內(nèi)統(tǒng)計推斷又會有什么影響呢?除了風險補償和錯誤定價,事后檢驗中存在的收益率可預測性背后的原因是否還有第三種可能?
面對實證和理論兩方面的困境,好不容易建立起秩序的資產(chǎn)定價再一次陷入了無序之中。人們又回到了需要重新建立新秩序的起點。而無論是實證檢驗還是理論建模,為了應對協(xié)變量的高維數(shù)問題,擅于處理高維問題和非線性關系的機器學習方法自然而然地成為彌補傳統(tǒng)計量經(jīng)濟學方法不足的不二之選。各種機器學習方法已經(jīng)在資產(chǎn)定價之外的其他領域(如圖像識別)取得了巨大的成功,讓人們對它們在資產(chǎn)定價方面的表現(xiàn)充滿期待。不幸的是,機器學習算法并非“即插即用”。大量實證結果表明,將現(xiàn)成的機器學習算法簡單粗暴地應用于資產(chǎn)定價領域的數(shù)據(jù)并不能在樣本外取得優(yōu)秀的表現(xiàn)。這是否意味著人們的希望破滅了呢?幸運的是,答案亦是否定的。
資產(chǎn)定價領域的數(shù)據(jù),諸如資產(chǎn)收益率,較機器學習擅長發(fā)揮作用的其他領域的數(shù)據(jù)具有一些與生俱來不同的屬性,例如信噪比極低、難以滿足平穩(wěn)性及預測誤差直接影響投資組合的風險收益特征等。這些特殊屬性的存在阻礙著現(xiàn)成機器學習算法發(fā)揮其威力。然而,一旦知道了問題所在,我們便能夠有的放矢,針對資產(chǎn)定價數(shù)據(jù)的屬性選擇和調整機器學習算法及其參數(shù),使它們充分發(fā)揮所長。
雖然目標明確,但這條利用機器學習拓展資產(chǎn)定價研究的道路仍然十分曲折。好消息是,在這條道路上,已經(jīng)有人為我們勾勒出了系統(tǒng)性的、可操作的藍圖。這張藍圖就是由身為芝加哥大學金融學教授、金融領域頂級期刊?Journal of Finance?執(zhí)行主編的 Stefan Nagel 教授所撰寫的?Machine Learning in Asset Pricing。該書高屋建瓴,邏輯縝密,推理嚴謹,得到了 John Campbell、Bryan Kelly、Allan Timmermann 和范劍青四位大咖的聯(lián)袂推薦。
作為資產(chǎn)定價領域的領軍學者之一,Stefan Nagel 教授以預測股票截面收益率中所遇到的各種問題為例,在書中體系化地討論了如何將機器學習方法成功地引入實證和理論資產(chǎn)定價研究之中,從而有效解決前文提到的挑戰(zhàn)。比如,該書通過理論推導和實證分析表明分別以?
資產(chǎn)定價應用中數(shù)據(jù)的低信噪比意味著人們不應指望在靈活的框架下,僅依靠“數(shù)據(jù)自己發(fā)聲”便能取得良好的結果。因此,為了實現(xiàn)在實證和理論方面的突破,需要對機器學習算法的選擇以及參數(shù)的設定施加必要的結構性約束。為此,將資產(chǎn)定價數(shù)據(jù)屬性背后的內(nèi)在經(jīng)濟學原理注入機器學習的應用就變得尤為重要。在這方面,貝葉斯統(tǒng)計提供了一個天然的框架。通過指定關于風險和收益機會的先驗分布,該研究框架允許人們在收益率預測問題中加入具有經(jīng)濟學動機的約束條件,它們對機器學習的成功應用至關重要。通過貝葉斯框架使得機器學習在資產(chǎn)定價中發(fā)揮更大的作用正是?Machine Learning in Asset Pricing?的一大特色。該書的另一個特色是強調開放性問題而非提供明確的答案。通過指出尚待解決的重要問題,Stefan Nagel 教授展望了資產(chǎn)定價研究的未來。
對業(yè)界投資實務來說,該書描繪的理論前沿進展極具價值。當下,人們似乎站在這樣一個十字路口之中,即傳統(tǒng)的基于人為稀疏性假設的多因子模型越來越難以獲得可觀的風險調整后收益。這背后的原因是,傳統(tǒng)實證資產(chǎn)定價研究和業(yè)界的投資實務的目標之間存在錯配。前者的目標是提出簡約的靜態(tài)模型并為模型中的因子提供合理的依據(jù),而后者的目標則是最大化樣本外投資組合的條件風險收益特征。在這種錯配下,投資實務亟需來自學術研究的全新方法的指引,而注入經(jīng)濟學推理的機器學習方法就是最好的答案。該書介紹的理論方法以及相應的實證結果很好地擴展了因子投資的前沿。
毫不夸張地說,Machine Learning in Asset Pricing?是一本資產(chǎn)定價領域劃時代的引領之作,同時也我最近兩年的最愛。書中所展示的機器學習在資產(chǎn)定價中的應用前景也極大地開闊了我的研究眼界和思路;而將書中闡述的前沿觀點和實證結果介紹給公眾號的小伙伴也成為我今年最大的心愿。今天,這個愿望終于實現(xiàn):我和北大經(jīng)院的王熙老師合作,翻譯出版了該書的中文版:《機器學習與資產(chǎn)定價》。
作為譯者,特別感謝 Stefan Nagel 教授以及普林斯頓大學出版社的同意和信任,讓我們有機會將其引入國內(nèi)。能有機會參與本書的翻譯,我們深感榮幸,同時也明白身上擔負的使命和責任。在翻譯過程中,我們反復討論和修訂,力爭做到在文字意義忠于原著的前提下,行文更加符合中文的表述習慣。此外,我們還在中文版中加入了大量的譯者注,希望以此起到兩個作用:(1)給原著提供必要的背景知識,幫助讀者掌握上下文的行文邏輯;(2)原著中的第 3 至 5 章均涉及大量公式,我們?yōu)槠渲薪^大多數(shù)公式提供了推導過程,幫助讀者加深對貝葉斯統(tǒng)計框架的理解。為了區(qū)分譯者注和原著自帶的腳注,譯者注采用了獨立的編號且使用了楷體。希望這些努力能夠使中文版讀者更好地體會到原著的魅力。
在翻譯過程中,我們有幸得到了學界和業(yè)界很多專家的熱情幫助,感謝芝加哥大學布斯商學院修大成教授以及嘉實基金首席科學家張自力博士為中譯版撰寫精彩的序言。此外,本書的出版也離不開電子工業(yè)出版社的全力支持,在此向各位編輯老師表示感謝。
在各位讀者開始這段令人興奮的機器學習與資產(chǎn)定價之旅之前,我們還想給出一些小小的忠告。雖然原著旨在介紹機器學習在資產(chǎn)定價中的應用,但它并不涵蓋機器學習方法的最新進展,也并沒有在計算問題方面花費太多篇幅。另外,原著也并沒有致力于提供關于哪個機器學習方法更好的“神秘配方”或“靈丹妙藥”。機器學習不是純粹的調包,不是幻想能毫無阻礙地揭示數(shù)據(jù)中的規(guī)律。毫無章法的使用機器學習會帶來如辛普森悖論一樣的悖論。唯有基于已有資產(chǎn)定價理論,將機器學習方法有機的融合理論視角,才能使得我們在驗證既有理論時有更強大的方法,并且使用理論框架約束機器學習的過擬合過程。
但是,如何有機的將機器學習融合進資產(chǎn)定價,人們并沒有一個“萬能公式”,而是需要根據(jù)所研究問題的特性,創(chuàng)造性的使用機器學習及其思想。原著在如何將機器學習運用至數(shù)個經(jīng)典的資產(chǎn)定價問題上,給研究者們提供了一系列精美絕倫的設計,很好地回答了“機器學習方法是否適用于資產(chǎn)定價”以及“如何基于經(jīng)濟學推理更合理地應用機器學習方法”這些本質的問題。希望通過該書中文版的出版,能夠幫助資產(chǎn)定價的研究者和量化投資的實踐者們在未來見微知著,突破傳統(tǒng)框架約束,為自己所感興趣的研究問題設計出有針對性的機器學習解決方案。
以下是一組中文版實物的精美圖片。本書為精裝書,紙張選用 80g 純質紙,實物拿到手里的質感非常好,希望內(nèi)容和制作能給各位帶來雙重享受。
回顧過去半個世紀的資產(chǎn)定價研究,不禁讓人感慨萬千。學術研究也許就是這樣,在無序中建立秩序,秩序又被新的問題打破并重新被建立,周而復始。在大數(shù)據(jù)時代研究資產(chǎn)定價,我們不僅要擁抱機器學習,而且要正確、科學、有效地擁抱機器學習。Stefan Nagel 教授的?Machine Learning in Asset Pricing?使我們朝著這個目標邁出堅實的一步。該書不僅是對最新前沿成果的精彩梳理,更是一種面對未來的整裝待發(fā)。相信每個關注資產(chǎn)定價的人都會因此而深受啟發(fā)。
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權歸原作者和期刊所有。