為什么機(jī)器學(xué)習(xí)在投資領(lǐng)域不好使

發(fā)布時(shí)間：2017-04-05 | 來源: 川總寫量化

作者：石川

The?essence?of?data?snooping?is?that?focusing?on?interesting?events?is?quite?different?from?trying?to?figure?out?which?events?are?interesting.

1 引言

最近，一條新聞引爆了投資圈：世界上最大的投資管理公司貝萊德（BlackRock）宣布將使用機(jī)器（確切的說是人工智能 artificial intelligence 或機(jī)器學(xué)習(xí)算法 machine learning algorithm）來取代一些基金經(jīng)理進(jìn)行選股。近年來，隨著其在人臉識(shí)別，信用反欺詐乃至國際象棋和圍棋領(lǐng)域的應(yīng)用和杰出表現(xiàn)，人工智能被越來越多的人所熟悉。很多人開始看好在不久的將來機(jī)器學(xué)習(xí)算法在二級(jí)市場(chǎng)投資上將會(huì)比人取得更加優(yōu)異的成績。而貝萊德的這一宣布無疑將人工智能又一次推上了風(fēng)口浪尖。這其中最根本的觀點(diǎn)是：

?機(jī)器學(xué)習(xí)通過可以使用復(fù)雜的各種非線性算法（比如神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法）來從大量的歷史交易數(shù)據(jù)中挖掘出人類無法看到的投資模式。根據(jù)這些模式來選股就可以取得豐厚收益。?

雖然身處并堅(jiān)定地看好量化投資領(lǐng)域，但我對(duì)“機(jī)器學(xué)習(xí)在選股上能取代人類”這個(gè)觀點(diǎn)上持保守和謹(jǐn)慎的態(tài)度。這是因?yàn)?strong style="box-sizing: border-box;">金融分析屬于非實(shí)驗(yàn)性科學(xué)（nonexperimental science），因此無法進(jìn)行對(duì)照實(shí)驗(yàn)（scientific control 或 controlled experiments）。這意味著雖然存在大量的金融交易數(shù)據(jù)，但是無法通過設(shè)計(jì)實(shí)驗(yàn)來控制自變量的變化、通過重復(fù)性試驗(yàn)來檢驗(yàn)提出的假設(shè)（比如說機(jī)器學(xué)習(xí)發(fā)現(xiàn)的某種選股模式）。如此的數(shù)據(jù)分析得到的大多是看似顯著但實(shí)際上是欺騙式的模式（尤其對(duì)樣本外數(shù)據(jù)），這個(gè)現(xiàn)象稱作數(shù)據(jù)窺探（data snooping）。

數(shù)據(jù)窺探（data snooping）：從數(shù)據(jù)中挖掘子虛烏有的模式（finding patterns in the data that do not exist）。

數(shù)據(jù)窺探問題存在于所有的非實(shí)驗(yàn)性研究中，而當(dāng)我們把復(fù)雜的機(jī)器學(xué)習(xí)算法用于選股時(shí)，這種問題尤甚。這是因?yàn)閺?fù)雜的非線性算法中包含大量的參數(shù)，通過這些參數(shù)的配合總能發(fā)現(xiàn)一些人類無法理解的、可以獲得超額收益的選股模式。如果不能正確地理解并從業(yè)務(wù)上解釋這些模式，數(shù)據(jù)窺探將使復(fù)雜的機(jī)器學(xué)習(xí)算法成為從歷史數(shù)據(jù)中發(fā)現(xiàn)無效巧合的高效工具，正如本文開頭的引用所說的那樣。

2 偽素?cái)?shù)選股

來看一個(gè)和股票八竿子打不著的選股算法。傳統(tǒng)的基金經(jīng)理恐怕絞盡腦汁也想不出這么個(gè)模式，但是機(jī)器學(xué)習(xí)算法可以輕易地（但是錯(cuò)誤地）找出它。這個(gè)算法利用了素?cái)?shù)（質(zhì)數(shù)）的一個(gè)性質(zhì)，它來自費(fèi)馬小定理的一個(gè)變種：除了 2 之外，任何一個(gè)素?cái)?shù) x 滿足“2 的 x-1 次方被它自身除的余數(shù)為 1”。

舉個(gè)例子，13 是一個(gè)素?cái)?shù)，2 的 13-1（即 12）次方等于 4096。用它除以 13 得到 315，余數(shù)為 1。可以證明，所有 2 以外的素?cái)?shù)都滿足這個(gè)性質(zhì)。但是滿足這個(gè)性質(zhì)的數(shù)不一定都是素?cái)?shù)，它們被稱為偽素?cái)?shù)（又稱為卡邁克爾數(shù)）。一萬以內(nèi)的偽素?cái)?shù)有七個(gè)：561，1105，1729，2465，2821，6601，以及 8911。我們利用這些偽素?cái)?shù)來對(duì)美股進(jìn)行選股：選擇股票編號(hào)中包含上述偽素?cái)?shù)的股票進(jìn)行投資。按照這個(gè)規(guī)則，Ametek公司（一個(gè)制造企業(yè)，股票編號(hào) 03110510）脫穎而出。更令人稱奇的是，它在過去 40 年取得了 95 倍的累計(jì)收益，遠(yuǎn)超道瓊斯工業(yè)或標(biāo)普 500 指數(shù)。

毫無疑問，這是一支非凡的股票，而我們的偽素?cái)?shù)策略取得了巨大的成功。然而，先別急著激動(dòng)。我們需要好好審視一下：偽素?cái)?shù)和選股到底有什么關(guān)系？答案是沒有關(guān)系。那么這個(gè)策略是否真正找到了有效的選股模式？答案也是否定的。有些人會(huì)馬上跳出來說“只要管用就行，為什么有用不重要！”。這種認(rèn)知是非常危險(xiǎn)的。對(duì)于選股這種非實(shí)驗(yàn)性問題，由于無法通過對(duì)照實(shí)驗(yàn)來檢驗(yàn)假設(shè)，那么至少從業(yè)務(wù)上明白機(jī)器學(xué)習(xí)的算法為什么有效就顯得格外重要。因此，“只要管用就行”是非常不負(fù)責(zé)任的態(tài)度。

這個(gè)例子代表了很多機(jī)器學(xué)習(xí)算法的問題：我們總可以使用復(fù)雜的非線性算法（比如神經(jīng)網(wǎng)絡(luò)）、通過過度優(yōu)化參數(shù)發(fā)現(xiàn)回測(cè)中無敵的選股模式。在這個(gè)過程中，我們已然落入了數(shù)據(jù)窺探陷阱。

3 認(rèn)知偏差加劇數(shù)據(jù)窺探

在以下這些條件下很容易發(fā)生數(shù)據(jù)窺探問題，很顯然它們都存在于二級(jí)市場(chǎng)投資中：

1. 存在大量的數(shù)據(jù)。

2. 很多人都在使用同樣的數(shù)據(jù)進(jìn)行分析。

3. 缺乏業(yè)務(wù)理論或者無法控制變量。

4. 認(rèn)知偏差“只要管用就行，為什么好使不重要”。

這其中前三條是市場(chǎng)的客觀條件，而最后一條則植根于人們的認(rèn)知錯(cuò)誤。人類認(rèn)知中總是傾向于追尋不同尋常的事件。只有當(dāng)一些“不同尋?！钡那珊习l(fā)生時(shí)，我們才往往能關(guān)注到。瑞士心理學(xué)家榮格將人們對(duì)巧合的過度關(guān)注稱為共時(shí)性（synchronicity）。

共時(shí)性：指“有意義的巧合”，用于解釋因果律無法解釋的現(xiàn)象，如夢(mèng)境成真，想到某人某人便出現(xiàn)等（“說曹操、曹操到”）。榮格認(rèn)為，這些表面上無因果關(guān)系的事件之間有著非因果性、有意義的聯(lián)系，這些聯(lián)系常取決于人的主觀經(jīng)驗(yàn)。當(dāng)兩者同時(shí)發(fā)生時(shí)，便稱為“共時(shí)性”現(xiàn)象。

通俗的說，當(dāng)在時(shí)間和空間上毫無聯(lián)系的兩件事同時(shí)發(fā)生時(shí)，人們便會(huì)認(rèn)為有一種超自然的神秘力量把它們聯(lián)系在一起，并認(rèn)為這種巧合具備某種意義。比如在上面的例子中，股票標(biāo)碼含有偽素?cái)?shù)和股票獲得了巨大的超額收益就是一個(gè)純粹的巧合，這樣的巧合被機(jī)器學(xué)習(xí)算法發(fā)現(xiàn)并呈現(xiàn)給使用者。如果使用者不試圖去理解這兩者到底是否真的有關(guān)系，便會(huì)由于共時(shí)性而將這種錯(cuò)誤的巧合賦予某種意義，即機(jī)器學(xué)習(xí)發(fā)現(xiàn)了一個(gè)牛逼哄哄的選股模式。

4 運(yùn)氣還是實(shí)力

前面說了這么多，目的當(dāng)然不是為了否定人工智能和機(jī)器學(xué)習(xí)在二級(jí)市場(chǎng)的應(yīng)用前景。但我想說，對(duì)于人工智能發(fā)現(xiàn)的任何模式，它有效的前提是我們能夠明白無誤的理解它的含義。不能以此為基礎(chǔ)便無法分辨出好的結(jié)果到底是來自運(yùn)氣還是實(shí)力。之前，我寫過一篇文章《出色不如走運(yùn)？》。文中使用順序統(tǒng)計(jì)量（order statistic）解釋了這樣一個(gè)道理：

在眾多股票中，最好的那支總會(huì)有非常優(yōu)秀的收益率；在眾多的策略中，最厲害的那一個(gè)總會(huì)帶來令人稱奇的回報(bào)率。然而，通過計(jì)算獨(dú)立樣本的極值（順序統(tǒng)計(jì)量）分布可知，這種結(jié)果實(shí)屬必然。

我們回顧一下那篇文章中的例子。假設(shè)一個(gè)股票投資策略的年化收益率 X 符合均值為 10%，標(biāo)準(zhǔn)差為 20% 的正態(tài)分布。假設(shè)市場(chǎng)中有 m 個(gè)不同的策略，則它們中最好的那個(gè)的收益率 Y 是 X 的函數(shù)，Y = max(X1, X2, …, Xm)。下圖是當(dāng) m = 3000 時(shí)，最好的那個(gè)的收益率分布和單一策略收益率分布的比較：最優(yōu)策略的收益率分布在橫坐標(biāo)上向右移動(dòng)且變的更窄。

下圖為 prob(Y≥0.7) 隨策略個(gè)數(shù) m 變化的結(jié)果。同時(shí)也給出了 Y 的均值和標(biāo)準(zhǔn)差隨 m 的變化。隨著 m 的增大，我們?cè)絹碓酱_定總會(huì)有一些策略脫穎而出，年化收益率超過 70%。這種判斷也同樣可以被 Y 的均值和方差來證明：隨著策略個(gè)數(shù)的增大，最優(yōu)策略的年化收益率的均值在增加，且標(biāo)準(zhǔn)差在減小。

這個(gè)結(jié)果說明，當(dāng)存在大量不同的策略時(shí)，最好的那一個(gè)總會(huì)異常非凡。但我們真正關(guān)心的問題是：這個(gè)策略到底是在茫茫歷史數(shù)據(jù)中找到了虛假的模式，還是發(fā)現(xiàn)了一套真正的科學(xué)投資模式？我們必須從業(yè)務(wù)層面弄清楚它是如何工作的。

5 前路漫漫

其實(shí)，人們使用算法來選股并不是什么新鮮事。風(fēng)險(xiǎn)多因子模型就可以算是一個(gè)算法選股的策略。當(dāng)然，它之所以有效是因?yàn)樗褂玫囊蜃?，比如成長因子、規(guī)模因子、動(dòng)量因子等，都有著清晰的業(yè)務(wù)基礎(chǔ)。近幾年，很多人使用機(jī)器學(xué)習(xí)的復(fù)雜算法，比如支持向量機(jī)，來改進(jìn)多因子選股。這些非線性算法構(gòu)建了很多非線性的因子。比如，如果算法告訴我們“雄安概念板塊，且對(duì)數(shù)市值 ÷ 三個(gè)月動(dòng)量大于 π”是一個(gè)好的模式，那我們就得好好琢磨琢磨了。

對(duì)于人工智能在二級(jí)市場(chǎng)投資的應(yīng)用，一位具有豐富實(shí)戰(zhàn)經(jīng)驗(yàn)的量化投資前輩闡述過如下的觀點(diǎn)，我對(duì)此十分認(rèn)可：

我們可以相信它（人工智能）能夠捕獲到那些人類根本無法察覺到的細(xì)微模式。但是，這些模式能夠持續(xù)嗎？這些模式會(huì)不會(huì)只是一些不會(huì)重復(fù)的隨機(jī)噪聲？人工智能領(lǐng)域的專家向我們保證他們有許多防范措施用以過濾那些瞬間噪聲。并且，這些工具確實(shí)在消費(fèi)者營銷和信用卡欺詐檢測(cè)上效果顯著。消費(fèi)者行為和詐騙行為的模式顯然都具有較長的持續(xù)期，這使得這些人工智能算法即使包含大量參數(shù)也能有效運(yùn)行。然而，以我的經(jīng)驗(yàn)來看，要對(duì)金融市場(chǎng)進(jìn)行預(yù)測(cè)，這種防范措施是遠(yuǎn)遠(yuǎn)不夠的，并且對(duì)歷史數(shù)據(jù)噪聲的過度擬合還會(huì)帶來嚴(yán)重后果?！鄬?duì)于可以獲取的大量相互獨(dú)立的消費(fèi)者行為和信用交易數(shù)據(jù)，我們能夠獲取的在統(tǒng)計(jì)學(xué)意義上相互獨(dú)立的金融數(shù)據(jù)是非常有限的。你可能會(huì)說，我們擁有大量分時(shí)金融數(shù)據(jù)可供使用。但實(shí)際上，這些數(shù)據(jù)是序列相關(guān)的，并不是相互獨(dú)立的。

這位前輩對(duì)于人工智能何時(shí)有效給出了自己的見解：

1. 基于正確的計(jì)量經(jīng)濟(jì)學(xué)或理論基礎(chǔ)，而不是隨機(jī)發(fā)現(xiàn)的模式。

2. 所需的參數(shù)用到歷史數(shù)據(jù)較少。

3. 只用到線性回歸，并未使用復(fù)雜的非線性函數(shù)。

4. 概念上很簡單。

5. 所有優(yōu)化都必須在不含未來未知數(shù)據(jù)的移動(dòng)窗口中實(shí)現(xiàn)，并且這種優(yōu)化的效果必須不斷地被未來未知的數(shù)據(jù)所證實(shí)。

策略的規(guī)則越多，模型的參數(shù)越多，就越有可能發(fā)生數(shù)據(jù)窺探。能經(jīng)得起時(shí)間考驗(yàn)的往往是簡單的模型。

6 再看貝萊德的決定

作為全球最大的資產(chǎn)管理公司，貝萊德宣布使用人工智能代替基金經(jīng)理無法令人忽視，且必然會(huì)一石激起千層浪。有機(jī)構(gòu)預(yù)測(cè)，到 2025 年，全球金融機(jī)構(gòu)將有 10% 的人工會(huì)被機(jī)器取代。這恐怕和越來越高昂的 alpha 不無關(guān)系。畢竟，從長期來看，絕大多數(shù)基金經(jīng)理都跑不贏指數(shù)，那么要這些基金經(jīng)理還有什么用呢？

引用我的合伙人高老板的話也許可以更好的理解貝萊德的這個(gè)決定：

超額收益越來越貴，開源不行，就想辦法節(jié)流。最終投資市場(chǎng)的均衡狀態(tài)是超額收益的邊際成本恰好等于超額收益。這樣成本高的投資基金終將不斷被成本低的基金擠出市場(chǎng)。

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

為什么機(jī)器學(xué)習(xí)在投資領(lǐng)域不好使