科技關聯(lián)度 (II)
發(fā)布時間:2022-10-26 | 來源: 川總寫量化
作者:石川
摘要:用更先進算法和數(shù)據(jù)打磨異象已成為內(nèi)卷時代實證研究的無奈之舉。然而在協(xié)變量的高維數(shù)時代,對單一異象的精雕細琢又有多少價值?在另類數(shù)據(jù)應用中,學界是否在越走越窄?
1
4 年前(whoa, time flies),《科技關聯(lián)度》一文介紹了 Lee, et al. (2019)。該文指出公司之間以專利類別重合度計算的科技關聯(lián)度(相似度)可以帶來股票收益率之間的領先—滯后關系,利用它可以獲得傳統(tǒng)因子無法解釋的超額收益。即便到了今天,依然可以說該文是一篇實證研究的典范。今天的題目是《科技關聯(lián)度 (II)》。我想你大概猜到了,是有人把計算科技關聯(lián)度的方法升級了,這篇文章就是 Bekkerman, Fich, and Khimich (2022)。該文沒有使用專利類別,而是直接對專利進行文本分析,通過提取專業(yè)術語并計算其重合度來描述公司之間的相似程度。不出意外,升級版科技關聯(lián)度“打敗”了 Lee, et al. (2019)。這體現(xiàn)在當控制了 Lee, et al. (2019) 的變量之后,新的變量依舊能夠獲得超額收益,而反之則不然。且實證結果指出,在 2000 年之后,Lee, et al. (2019) 的變量逐漸難以獲得超額收益,而新的變量則依然“生機盎然”。
在學界如今內(nèi)卷的現(xiàn)狀下,用更先進算法和數(shù)據(jù)打磨異象已成為實證研究的無奈之舉;而一旦使用了更先進的算法和數(shù)據(jù),也就十有八九能找到樣本內(nèi)更好的超額收益。從這個角度而言,Bekkerman, Fich, and Khimich (2022) 只是 follow the trend,并無特別之處。然而,該文的一些實證結果和討論引發(fā)了我關于此類領先—滯后關系準另類數(shù)據(jù)的一些思考。本文就拋磚引玉
2
在我看來,Bekkerman, Fich, and Khimich (2022) 一文最重要的實證結果(之一)不是基于新變量的 portfolio sort 或 Fama-MacBeth regression 來表明異象能夠獲得多么顯著的超額收益,而是 Table 2 Panel C。Table 2 Panel C 的結果為科技關聯(lián)的公司之間存在的 economic connections 提供了證據(jù);只有 economic connections 存在,基于科技關聯(lián)度構造的異象才站得住腳,否則它大概率只是霧里看花。為此,Bekkerman, Fich, and Khimich (2022) 從盈利和科技創(chuàng)新兩方面出發(fā)研究了焦點公司和關聯(lián)公司之間的關系。以盈利為例,該文研究了焦點公司和關聯(lián)公司 ROA 同期的相關性,以及焦點公司?
以 column (1) 中的回歸結果為例,其因變量是焦點公司?
可見,無論是盈利還是科技創(chuàng)新,焦點公司和關聯(lián)公司同期都有顯著的正相關,此外關聯(lián)公司的?
3
該文另一個重要的(且是讓我陷入深深思考的)實證結果是 Table 6 Panel C。在該表中,作者將他們基于文本計算的科技關聯(lián)度和 Lee, et al. (2019) 基于專利類別計算的科技關聯(lián)度進行了比對,其中 Panels A 和 B 分別匯報了兩種計算方法的結果,而 Panel C 則基于兩種方法對滿足條件的股票進行了細分。Panel C 中:
TS-text NOT TS-class 表示基于文本相似,但基于類別不相似;
TS-text AND TS-class 表示基于文本相似,且基于類別相似;
TS-class NOT TS-text 表示基于類別相似,但基于文本不相似。
除此之外,作者不僅考慮了 full sample,還將整個樣本分成了四個時間區(qū)間,以此分析可預測性如何隨時間發(fā)生變化。這四個區(qū)間為1977 – 1986、1987 – 1999、2000 – 2008 和 2009 – 2016。到此,給自己的“坑”就算是挖好了。哦,不對,是實證設定就做好了!在下面的結果中,最有意思的是在 1977 – 1986 以及 1987 – 1999 這兩個區(qū)間,或統(tǒng)稱為 2000 年以前,TS-text NOT TS-class(文本相似但是類別不相似)并不能獲得顯著的超額收益;反倒是 2000 以后,它迎來了大紅大紫的黃金年代。
這樣的實證結果不禁讓人大大的疑惑。Bekkerman, Fich, and Khimich (2022) 對此的解釋是:1999 年之前,專利數(shù)據(jù)并沒有被數(shù)字化,因此對投資者來說可以認為是不可得的。在 1999 年之后,專利數(shù)據(jù)被放到了互聯(lián)網(wǎng)上,極大的降低了投資者獲取的難度。他們猜測這就是 TS-text NOT TS-class 在 2000 年之前不好使的原因。看完這個解釋后我更加困惑了。對于一個常規(guī)的協(xié)變量(比如諸多 firm-characteristics),如果變量/數(shù)據(jù)背后代表的 economic connections 存在,那么它不應該受到數(shù)據(jù)是否對投資者可得而影響,且當沒有投資者使用的時候(也就更不存在過度套利),這種 connections 所帶來的超額收益應該更高,而不是消失(Linnainmaa and Roberts 2018)。也正因如此,AQR 在 Buffett’s Alpha 一文中才發(fā)出“巴菲特才是真的神,我們只是事后分析的凡人”的感慨。
然而基于 TS-text NOT TS-class 的科技關聯(lián)度怎么就不好使呢?是上述認知有問題,還是它并非一個常規(guī)的協(xié)變量?是否存在另一種合理的解釋支持“專利數(shù)據(jù)在 2000 年開始變得可得導致了該結果”這種說法?Here is the trick.(特別感謝因子動物園園長對此的討論。)科技關聯(lián)度(以及其他方法計算的各種花式相似度)本質(zhì)上是公司之間的關聯(lián)形成的動量效應。邏輯上來說,是由于投資者注意力有限,沒有注意到只有完全理性的投資者能認識到的關聯(lián)(無論是 Lee, et al. (2019) 還是這篇都有這方面的充分討論),所以導致信息擴散緩慢,進而導致焦點公司的關聯(lián)公司的歷史股票收益率能夠預測其股票收益率。
接下來,重點來了!這里的前提是信息擴散緩慢的原因是投資者注意力不足,而不是投資者完全完全意識不到關聯(lián)。注意力不足意味著投資者未來能認識到關聯(lián),因而會有信息的進一步擴散和關聯(lián)動量。而后者意味著投資者壓根就看不到關聯(lián)的存在,因此也就沒關聯(lián)動量效應了。在這個解釋下,一切似乎能說通了。在 2000 年以前,當專利數(shù)據(jù)還沒有廣泛可得的時候,投資者根本不知道這類數(shù)據(jù)存在,因此什么有限注意力以及由此導致的公司間動量也就無從談起。合理嗎?也許吧,但很難說一點不牽強。這似乎在傳遞著,所有公司間的花式動量(各種領先—滯后關系)存在的前提都有兩點:1. 投資者意識到了數(shù)據(jù)的存在;2. 由于投資者有限注意力,因此沒有充分利用數(shù)據(jù),導致信息緩慢擴散。它給我一種“觀測到數(shù)據(jù),就有?
4
本文的最后討論一下升級版科技關聯(lián)度擊敗了老版這類現(xiàn)象。這并非科技關聯(lián)度異象特有的現(xiàn)象,而是會出現(xiàn)在任何異象上。隨著構造數(shù)據(jù)的豐富和構造手段的復雜,迭代后的異象一定會在實證中打敗老的異象。但是,在協(xié)變量的高維數(shù)時代,精雕細琢一個異象又有多少實踐價值(發(fā) paper 的學術價值自然是有)?如果另類數(shù)據(jù)只是用來打磨異象而非揭示出更多公司之間的 economic connections,那么人們在這條路上是否越走越窄?(這也是為什么我認為 Table 2 Panel C 才是 Bekkerman, Fich, and Khimich (2022) 的點睛之筆。)
對于升級版科技關聯(lián)度在 2000 年之后十分有效,但基于專利類別的關聯(lián)度卻逐漸失效的結果,我們可以從兩方面來解讀。第一個就是投資者有限注意力的問題(當然,我們假設投資者已經(jīng)意識到了數(shù)據(jù)的存在?。?。第二方面,我想到的是 Martin and Nagel (2022) 以及 Nagel (2021) 中提到的投資者學習問題。比起專利類別,基于文本計算相似度要更加復雜,即投資者獲取和處理專利數(shù)據(jù)的成本更加昂貴,因此大多投資者會在為公司估值時忽略這方面的信息。這將導致他們使用過度稀疏的估值模型,進而造成樣本內(nèi)和樣本外收益率可預測性。
毫無疑問,另類數(shù)據(jù)打開了量化投資的新篇章,但是當我們在使用這類基于新數(shù)據(jù)以及新技術挖出的協(xié)變量時,也應該對其背后獲得超額收益的原因有更加深刻的思考。最后,讓我以 Nagel (2021) 中的一段話結束本文(截圖來自我和王老師翻譯的中文版《機器學習與資產(chǎn)定價》)。
參考文獻
Bekkerman, R., E. M. Fich, and N. V. Khimich (2022). The effect of innovation similarity on asset prices: Evidence from patents’ big data.?Review of Asset Pricing Studies?forthcoming.
Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns.?Journal of Financial Economics?132(3), 76 – 96.
Linnainmaa, J. T. and M. R. Roberts (2018). The history of the cross-section of stock returns.?Review of Financial Studies?31(7), 2606 – 2649.
Martin, I. W. R. and S. Nagel (2022). Market efficiency in the age of big data.?Journal of Financial Economics?145(1), 154 – 177.
Nagel, S. (2021).?Machine Learning in Asset Pricing. Princeton, NJ: Princeton University Press.
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權歸原作者和期刊所有。