Campbell Harvey: “Tortured Data”

發(fā)布時間：2020-07-08 | 來源: 川總寫量化

作者：石川
摘要：If you torture the data long enough, it will confess.

0?引言

If you torture the data long enough, it will confess.?—— Ronald Coase, 1991 年諾貝爾經(jīng)濟學獎獲得者

上面這句話的直白翻譯是，如果你折磨數(shù)據(jù)足夠長的時間，它們會招供的。它的隱含意思是，只要人們想盡辦法去過擬合，總能得到希望的結(jié)論。這句話用來形容今天實證資產(chǎn)定價領(lǐng)域的研究風氣十分貼切。近些年，Campbell Harvey 教授舉起了呼吁學術(shù)界重視并消滅偽發(fā)現(xiàn)的大旗。無論是他著名的論文 Harvey, Liu, and Zhu (2016)，還是 2017 年他在 AFA 年會做的主席演講（Harvey 2017，點擊直達推文鏈接），還是刊發(fā)于 Journal of Finance 的最新文章 Harvey and Liu (2020)，都是關(guān)于實證資產(chǎn)定價領(lǐng)域偽發(fā)現(xiàn)的問題。而近日，在 Society of Financial Studies（SFS）協(xié)會 2020 年會上，Harvey 教授又應邀做了 keynote，題目就叫 Tortured Data —— 飽受折磨的數(shù)據(jù)。

可能小伙伴們更熟悉 AFA，而 Society of Financial Studies 的來頭同樣不小，它是 Review of Financial Studies 背后的協(xié)會。據(jù)其官網(wǎng)介紹，以會議論文最終被金融領(lǐng)域三大頂刊錄用比例來評判，SFS 年會是最佳的金融學會議。因此，在該會議上做 keynote 并再次呼吁偽發(fā)現(xiàn)問題，足見其重要性。今天這篇小文就來介紹一下 Harvey 教授的最新演講。由于公眾號之前在這方面做過一些積累，因此也會在行文中把相關(guān)內(nèi)容串聯(lián)起來。Harvey 教授指出，出現(xiàn)偽發(fā)現(xiàn)的原因包括以下幾種：

1. 數(shù)據(jù)挑選

2.?責任下放

3. 多重假設(shè)檢驗

4. 方法多樣性

5.?數(shù)據(jù)操縱

值得一提的是，Harvey 教授在演講中不失詼諧的抨擊了金融以及其他領(lǐng)域的一些偽發(fā)現(xiàn)，并同時“懟了”學術(shù)界和業(yè)界（不乏 big names）。所以，建議你看完本文也去看看他的演講（參考文獻最后有鏈接）。

1?數(shù)據(jù)挑選

Harvey 教授通過兩個例子說明了數(shù)據(jù)挑選的危害。首先遭到抨擊的是來自一家知名投資管理公司在 2019 年寫的一篇 white paper，題為?The overlooked persistence of active outperformance，非常 aggressive。它的意思就是主動管理人其實能持續(xù)的戰(zhàn)勝市場，提供 α，但卻被忽視了。

一直以來，無論是 Michael Jensen 還是 John Bogle 都告訴我們，在美國市場中，平均來看，主動管理人 fee 后難以獲得超額收益。然而，這篇 white paper 卻拋出完全對立的觀點。那么，到底是人們長久以來的看法錯了，還是這篇文章有問題？經(jīng)過仔細檢查，不難發(fā)現(xiàn)產(chǎn)生上述分歧的原因。在這篇 white paper 的摘要中，有下面這句非常重要的話（下圖，highlight 的部分），它的意思是“如果我們剔除市場中最差的 25% 主動管理策略，那么最好的四分之三戰(zhàn)勝了市場?！?/span>

漂亮！這“神”邏輯嚴絲合縫。按照這個邏輯推演一下，如果刨除后 50% 的話，剩余的戰(zhàn)勝市場更多！Harvey 教授在演講中非常幽默的拋出了他對這種 data selection 的反應。

第二個例子來自下面這篇 2014 年的論文。作者不乏 Andrew Ang 這樣的 big name，而且其中另一位作者是 Harvey 在 Duke 商學院的同事啊。這真是……

這篇文章分析了 Norwegian Government Pension Fund 的表現(xiàn)，得出的結(jié)論是非常優(yōu)異，只不過是在下面這個前提下：

Abstracting from the financial crisis,?we conclude that active management of both equity and fixed income has significantly contributed to the returns of the fund.

驚不驚喜？意不意外？它的意思是，如果我們選擇性地遺忘金融危機，這個 fund 的表現(xiàn)非常不錯！嗯，除了熊市之外，所有的牛市都非常不錯。簡單點評一下這兩個例子背后的數(shù)據(jù)挑選危害。說到底，金融領(lǐng)域的研究屬于“軟”科學，即研究結(jié)果依賴于提出怎樣的假設(shè)，如何挑選和處理數(shù)據(jù)，以及如何分析并解釋結(jié)果。但刻意的遺漏掉一些數(shù)據(jù)來支持自己的觀點，顯然是錯誤的行為。

2?責任下放

產(chǎn)生偽發(fā)現(xiàn)的第二個原因是責任下放，意思是在研究中我們“無腦”相信別人的分析結(jié)果，而不去試圖仔細分析其是否為偽發(fā)現(xiàn)。

對于這點，Harvey 舉了他自己的一個例子。在他學術(shù)生涯早期的某天晚上 9 點，接到了來自高盛的電話，電話那頭的人不是別人，而是大名鼎鼎的 Fischer Black（需要背景知識的小伙伴可看《Fischer Black》一文）。令他感到驚訝的是，在這通電話之前，二人從未見過面，因此他對于接到 Black 的來電感到困惑不已。不過，他的困惑很快就被揭開了。Black 開門見山“你 1989 年發(fā)表在 Journal of Financial Economics 上的文章有錯誤?！?/span>Black 指的是 Harvey (1989) 這篇論文。其中 Table 2（下圖）匯報了一個時序回歸模型對下期股票收益率的預測結(jié)果。其樣本內(nèi)的準確性高達 R-squared = 7.5%。Black 認為這么高的 R-squared 是 overfitting 造成的。

震驚之余，Harvey 感到頗為無辜；他馬上反駁了 Black 并指出在這個表中，自己僅僅是根據(jù)前人的模型來匯報了一個 test results，而且他也沒有進行任何最大化 R-squared 的嘗試，因此這個過程中不存在任何的數(shù)據(jù)操縱或者過擬合。然而，如今 Harvey 教授對這篇 1989 年的論文在樣本外進行了復現(xiàn)（樣本外數(shù)據(jù)從 1988 年到 2018 年），并得到了完全不同的答案。在樣本外，預測回歸模型中的一個重要解釋變量（junk spread）的系數(shù)符號竟然發(fā)生了變化，且 R-squared 也下降到了 1.2% —— 并不顯著。

這種強烈的對比表明了他最初參照前人研究（因此是責任下放問題）的 test results（R-squared = 7.5%）根本不靠譜。這個例子說明，即便我們非常小心的規(guī)避“折磨數(shù)據(jù)”，但我們相信并依賴的他人的研究很可能早已是“折磨數(shù)據(jù)”之后的結(jié)果。怎么樣？狠起來，先從自己開始反省。面對上述責任下放問題，Harvey 教授非常坦誠的說到：

Looking back in time, this telephone call is ironic given my research agenda is to improve research practices in finance and to call out the data miners.

而“Black was right!”則是 Harvey 教授發(fā)自內(nèi)心的感嘆。我們仿佛能看到 Black 鬼魅的微笑了。

3?多重假設(shè)檢驗

造成偽發(fā)現(xiàn)的第三個原因是多重假設(shè)檢驗（multiple hypothesis testing），它指的是使用同樣的數(shù)據(jù)同時檢驗多個原假設(shè)。在實證資產(chǎn)定價研究中，所有的學者都使用 CRSP 和 Compustat 的數(shù)據(jù)來挖因子，因此總能找到樣本內(nèi)好使但虛假的發(fā)現(xiàn)。關(guān)于多重假設(shè)檢驗，公眾號之前的《出色不如走運》系里文章已經(jīng)反復討論過了，感興趣的小伙伴請查看相關(guān)推文（II、III、IV），此處不再贅述。

在談到多重假設(shè)檢驗的問題時，Harvey 教授把它形象的比喻為 The Garden of Forking Paths（小徑分叉的花園） —— 這個標題也是阿根廷作家 Jorge Luis Borges 于 1941 年創(chuàng)作的短篇故事。假設(shè)我們手里有 20 個變量來構(gòu)建策略，考慮下面兩種情況：

1. 從這 20 個變量中隨機挑出的第 1 個就得到了非常好的回測結(jié)果；于是我們不再研究剩下 19 個，并聲稱沒有過擬合、沒有進行多重假設(shè)檢驗；

2. 假設(shè)在另一個平行宇宙中，我們把全部 20 個變量試了個遍，才最終找到了第一種情況中的第一個變量，得到了很好的回測結(jié)果。這時我們認為，因為一共測了 20 個，因此這個很可能是因為運氣，所以過擬合了，所以選擇不相信它。

緊接著問題來了：這兩種情況到底有沒有區(qū)別？第一種情況下找到的那個變量是否真的沒有受到多重假設(shè)檢驗的影響？對于這個問題，Harvey 教授表示：Both findings need to be treated equally.?這意味著，即便在第一種情況下，第一次就挑出的變量依然不能令人信服，它應和第二種情況同等對待。這也同樣說明，變量或者策略的先驗對于規(guī)避多重假設(shè)檢驗影響的重要性。這讓我想到 Harvey (2017) 一文提出的貝葉斯后驗 p-value，它無疑更有助于分析一個變量或者策略是否真的有效。關(guān)于貝葉斯后驗 p-value，請見《在追逐 p-value 的道路上狂奔，卻在科學的道路上漸行漸遠》。

4?方法多樣性

方法多樣性和上一節(jié)的多重假設(shè)檢驗異曲同工；它指的是使用不同的方法來進行分析，并挑出最好的。

If the researcher tries a large enough number of strategy configurations, a backtest can always be fit to any desired performance for a fixed sample length.?—— Marcos Lopez de Prado

某日，一家著名的機構(gòu)找到 Harvey 教授，請他評價一下該機構(gòu)研發(fā)的股票月度收益率預測模型。在介紹這個模型之前，讓我們先來醞釀一下情緒?；仡櫹卤疚牡诙?jié) Harvey (1989) 中的模型，它在 1988 年之前的 R-squared 是 7.5%（被 Black 質(zhì)疑了），而在 1988 到 2018 之間的 R-squared 僅為 1.2%，其在整個窗口內(nèi)的 R-squared 為 4%。它的效果是下面這樣，符合我們的認知。

再來看看這家著名機構(gòu)的模型。它們預測了世界上 59 個國家市場的月頻收益率；模型的特征如下圖所示。

劃一下關(guān)鍵詞：每個市場 200 個變量！統(tǒng)計分析！最先進的機器學習算法！針對每個市場，經(jīng)過兩年 intensive data collection 找到了 200 個變量，用不同的機器學習算法去 fit……再來看看效果（一定要和 Harvey 1987 對比！）。用該機構(gòu)自己的話：“處處精準”，“25 個最大經(jīng)濟體市場的 R-squared 為 0.96”，“所有 59 個市場的 R-squared 為 0.98”。在講到這里時，Harvey 教授又來了一把 Harvey 式幽默。他指出最初看到這兩個 R-squared 的時候以為對方默認省略了百分號，如果是那樣的話，那么這個復雜模型和 Harvey (1987) 在樣本外（1988 到 2018）的 R-squared = 1.2% 就差不多。但是他錯了，沒有百分號，真的是處處精準。

到底有多精準？2008 年 10 月是金融危機時期的最大單月跌幅，高達 -35%。看看在 2008 年 9 月模型預測的下個月收益率是多少？沒錯，-35%！分毫不差！兩個模型比較一下：

當“足夠多的變量”遇見“足夠復雜的算法”，就碰撞出“精致的錯誤”。但更令人稱奇的是，該模型不僅樣本內(nèi)處處精準，再來看看該機構(gòu)給出的樣本外結(jié)果，同樣“非凡”。然而，后來經(jīng)仔細檢查發(fā)現(xiàn)，該模型建模時已經(jīng)包含了所謂的樣本外數(shù)據(jù)，即樣本外并非真正的樣本外。

5?數(shù)據(jù)操縱（p-hacking）

導致偽發(fā)現(xiàn)的最后一個原因是 p-hacking，即為了追求超低 p-value 而進行的數(shù)據(jù)操縱。

在發(fā)表偏差的影響下，學術(shù)界都在追求超低 p-value。Harvey, Liu, and Zhu (2016) 分析了 1963 年到 2012 年間發(fā)表在金融領(lǐng)域最頂級期刊上的 300 多個因子模型的 t-statistics（p-value 越低，t-statistic 越高）的分布，發(fā)現(xiàn) t-statistic 取值在 2 到 2.57 的文章數(shù)和 t-statistic 取值在 2.57 到 3.14 的文章數(shù)十分接近。

然而，t-statistic = 2.57 對應的 p-value 大概是 0.005；而 t-statistic = 3 對應的 p-value 則是 0.001。顯然，找到 p-value = 0.001 的因子要比找到 p-value = 0.005 的因子要困難得多，但它們的文章數(shù)量卻大致相當。這只能說明在頂級期刊發(fā)表文章時，學者們傾向于更低的 p-value。那么問題來了：哪那么容易找到這么多超低的 p-value？答案是：通過數(shù)據(jù)操縱去湊。而在 p-hacking 方面，金融界和醫(yī)學界相比又是小巫見大巫。Harvey 教授在演講中舉了一個著名的例子。一篇來自 Cornell 大學、發(fā)表于醫(yī)學界知名雜志 JAMA Pediatrics 上的論文指出，在蘋果上貼上卡通貼紙，可以提高 8 至 11 歲兒童在蘋果和餅干之間挑選蘋果的概率。

這篇論文的一作是 Brian Wansink，三作是 Collin Payne。接下來就看看這二位的表演。該文發(fā)表于 2012 年?；仡櫰溲芯窟M程，在 2008 年之前都沒有什么確定性的結(jié)論，直到 Payne 發(fā)給 Wansink 的一封郵件中透露了所謂的“重大進展”：

注意上面括號里的內(nèi)容“with a bit more wizardry”，開魔法學校嗎？它指的是，經(jīng)過一些巧妙的加工，數(shù)據(jù)就能支持他們的結(jié)論。再來看看 2012 年 Wansink 的郵件：

p-value 只有 0.06，還不夠低，需要把數(shù)據(jù)再“搞一搞”，最好能讓 p-value 到 0.05 以下。不過最終，他們也沒能再進一步降低 p-value，在最終發(fā)表的版本中，p-value 仍為 0.06。令人欣慰的是，如此大膽的學術(shù)造假最終被發(fā)現(xiàn)，而該文也在 2017 年底被撤回。除了 p-hacking 之外，該文更大的問題是它聲稱使用的樣本是 8 至 11 歲的兒童，但事實卻并非如此……時至今日，Wansink 已有 18 篇論文被撤回，而他也早已因為學術(shù)不端而被 Cornell 掃地出門。從調(diào)查其學術(shù)不端中發(fā)現(xiàn)的一些資料可以看出，數(shù)據(jù)操縱以及 p-hacking 已經(jīng)深深的扎根于這位世界著名營養(yǎng)學家的研究價值觀……

坦白的說，在 empirical analysis 中，任何人都會或多或少的進行一些數(shù)據(jù)的細分或者劃分，而“數(shù)據(jù)細分”或者“數(shù)據(jù)劃分”本身其實是中性的詞語。但如果它的目的是為了 p-hacking，那么就很可能會造成偽發(fā)現(xiàn)。這是我們應該避免的。

6?結(jié)語

以上五節(jié)介紹了產(chǎn)生偽發(fā)現(xiàn)的五個常見原因：數(shù)據(jù)挑選、責任下放、多重假設(shè)檢驗、方法多樣性和 p-hacking。這些情況在量化投資中均會出現(xiàn)，正確的對待它們就顯得尤為重要。對于做數(shù)據(jù)分析的人（包括我自己）來說，常常掛在嘴邊的一句話是“Let the data speak”（讓數(shù)據(jù)發(fā)聲）。但事實是數(shù)據(jù)不會發(fā)聲，而是進行數(shù)據(jù)分析的人通過數(shù)據(jù)發(fā)聲。而在這背后，又有多少不同的動機、原因、理由來追求數(shù)據(jù)分析師希望看到的結(jié)論，或者希望講述的故事呢？最后，讓我用 Harvey 教授對投資者的建議結(jié)束本文：

Investors need to be?especially vigilant?in this era of big data, large number of predictors, a plethora of methods, and the incentives to strategically manipulate the data to uncover a convenient "truth".

寫完本文，我不禁要給 Harvey 教授點贊。但更令我印象深刻的是，F(xiàn)ischer Black was right! Again!

參考文獻

Harvey, C. R. (1989). Time-varying conditional covariances in tests of asset pricing models. Journal of Financial Economics 24(2), 289 – 317.

Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.

Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance?75(5), 2503 – 2553.

Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns.?Review of Financial Studies 29(1), 5 – 68.

Harvey 教授演講鏈接：https://iu.mediaspace.kaltura.com/media/1_b70bmzv3

Harvey 教授演講 slides：http://sfs.org/wp-content/uploads/2020/07/Tortured-Data.pdf

免責聲明：入市有風險，投資需謹慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外，文中圖表均直接或間接來自于相應論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

Campbell Harvey: “Tortured Data”