在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

為什么機(jī)器學(xué)習(xí)在投資領(lǐng)域不好使

發(fā)布時(shí)間:2017-04-05  |   來源: 川總寫量化

作者:石川


The?essence?of?data?snooping?is?that?focusing?on?interesting?events?is?quite?different?from?trying?to?figure?out?which?events?are?interesting.


1 引言


最近,一條新聞引爆了投資圈:世界上最大的投資管理公司貝萊德(BlackRock)宣布將使用機(jī)器(確切的說是人工智能 artificial intelligence 或機(jī)器學(xué)習(xí)算法 machine learning algorithm)來取代一些基金經(jīng)理進(jìn)行選股。近年來,隨著其在人臉識(shí)別,信用反欺詐乃至國際象棋和圍棋領(lǐng)域的應(yīng)用和杰出表現(xiàn),人工智能被越來越多的人所熟悉。很多人開始看好在不久的將來機(jī)器學(xué)習(xí)算法在二級(jí)市場(chǎng)投資上將會(huì)比人取得更加優(yōu)異的成績。而貝萊德的這一宣布無疑將人工智能又一次推上了風(fēng)口浪尖。這其中最根本的觀點(diǎn)是:


?機(jī)器學(xué)習(xí)通過可以使用復(fù)雜的各種非線性算法(比如神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法)來從大量的歷史交易數(shù)據(jù)中挖掘出人類無法看到的投資模式。根據(jù)這些模式來選股就可以取得豐厚收益。?


雖然身處并堅(jiān)定地看好量化投資領(lǐng)域,但我對(duì)“機(jī)器學(xué)習(xí)在選股上能取代人類”這個(gè)觀點(diǎn)上持保守和謹(jǐn)慎的態(tài)度。這是因?yàn)?strong style="box-sizing: border-box;">金融分析屬于非實(shí)驗(yàn)性科學(xué)(nonexperimental science),因此無法進(jìn)行對(duì)照實(shí)驗(yàn)(scientific control 或 controlled experiments)。這意味著雖然存在大量的金融交易數(shù)據(jù),但是無法通過設(shè)計(jì)實(shí)驗(yàn)來控制自變量的變化、通過重復(fù)性試驗(yàn)來檢驗(yàn)提出的假設(shè)(比如說機(jī)器學(xué)習(xí)發(fā)現(xiàn)的某種選股模式)。如此的數(shù)據(jù)分析得到的大多是看似顯著但實(shí)際上是欺騙式的模式(尤其對(duì)樣本外數(shù)據(jù)),這個(gè)現(xiàn)象稱作數(shù)據(jù)窺探(data snooping)。


數(shù)據(jù)窺探(data snooping):從數(shù)據(jù)中挖掘子虛烏有的模式(finding patterns in the data that do not exist)。


數(shù)據(jù)窺探問題存在于所有的非實(shí)驗(yàn)性研究中,而當(dāng)我們把復(fù)雜的機(jī)器學(xué)習(xí)算法用于選股時(shí),這種問題尤甚。這是因?yàn)閺?fù)雜的非線性算法中包含大量的參數(shù),通過這些參數(shù)的配合總能發(fā)現(xiàn)一些人類無法理解的、可以獲得超額收益的選股模式。如果不能正確地理解并從業(yè)務(wù)上解釋這些模式,數(shù)據(jù)窺探將使復(fù)雜的機(jī)器學(xué)習(xí)算法成為從歷史數(shù)據(jù)中發(fā)現(xiàn)無效巧合的高效工具,正如本文開頭的引用所說的那樣。


2 偽素?cái)?shù)選股


來看一個(gè)和股票八竿子打不著的選股算法。傳統(tǒng)的基金經(jīng)理恐怕絞盡腦汁也想不出這么個(gè)模式,但是機(jī)器學(xué)習(xí)算法可以輕易地(但是錯(cuò)誤地)找出它。這個(gè)算法利用了素?cái)?shù)(質(zhì)數(shù))的一個(gè)性質(zhì),它來自費(fèi)馬小定理的一個(gè)變種:除了 2 之外,任何一個(gè)素?cái)?shù) x 滿足“2 的 x-1 次方被它自身除的余數(shù)為 1”。


舉個(gè)例子,13 是一個(gè)素?cái)?shù),2 的 13-1(即 12)次方等于 4096。用它除以 13 得到 315,余數(shù)為 1。可以證明,所有 2 以外的素?cái)?shù)都滿足這個(gè)性質(zhì)。但是滿足這個(gè)性質(zhì)的數(shù)不一定都是素?cái)?shù),它們被稱為偽素?cái)?shù)(又稱為卡邁克爾數(shù))。一萬以內(nèi)的偽素?cái)?shù)有七個(gè):561,1105,1729,2465,2821,6601,以及 8911。我們利用這些偽素?cái)?shù)來對(duì)美股進(jìn)行選股:選擇股票編號(hào)中包含上述偽素?cái)?shù)的股票進(jìn)行投資。按照這個(gè)規(guī)則,Ametek公司(一個(gè)制造企業(yè),股票編號(hào) 03110510)脫穎而出。更令人稱奇的是,它在過去 40 年取得了 95 倍的累計(jì)收益,遠(yuǎn)超道瓊斯工業(yè)或標(biāo)普 500 指數(shù)。


f1.png


毫無疑問,這是一支非凡的股票,而我們的偽素?cái)?shù)策略取得了巨大的成功。然而, 先別急著激動(dòng)。我們需要好好審視一下:偽素?cái)?shù)和選股到底有什么關(guān)系?答案是沒有關(guān)系。那么這個(gè)策略是否真正找到了有效的選股模式?答案也是否定的。有些人會(huì)馬上跳出來說“只要管用就行,為什么有用不重要!”。這種認(rèn)知是非常危險(xiǎn)的。對(duì)于選股這種非實(shí)驗(yàn)性問題,由于無法通過對(duì)照實(shí)驗(yàn)來檢驗(yàn)假設(shè),那么至少從業(yè)務(wù)上明白機(jī)器學(xué)習(xí)的算法為什么有效就顯得格外重要。因此,“只要管用就行”是非常不負(fù)責(zé)任的態(tài)度。


這個(gè)例子代表了很多機(jī)器學(xué)習(xí)算法的問題:我們總可以使用復(fù)雜的非線性算法(比如神經(jīng)網(wǎng)絡(luò))、通過過度優(yōu)化參數(shù)發(fā)現(xiàn)回測(cè)中無敵的選股模式。在這個(gè)過程中,我們已然落入了數(shù)據(jù)窺探陷阱。


3 認(rèn)知偏差加劇數(shù)據(jù)窺探


在以下這些條件下很容易發(fā)生數(shù)據(jù)窺探問題,很顯然它們都存在于二級(jí)市場(chǎng)投資中:


1. 存在大量的數(shù)據(jù)。

2. 很多人都在使用同樣的數(shù)據(jù)進(jìn)行分析。

3. 缺乏業(yè)務(wù)理論或者無法控制變量。

4. 認(rèn)知偏差“只要管用就行,為什么好使不重要”。


這其中前三條是市場(chǎng)的客觀條件,而最后一條則植根于人們的認(rèn)知錯(cuò)誤。人類認(rèn)知中總是傾向于追尋不同尋常的事件。只有當(dāng)一些“不同尋?!钡那珊习l(fā)生時(shí),我們才往往能關(guān)注到。瑞士心理學(xué)家榮格將人們對(duì)巧合的過度關(guān)注稱為共時(shí)性(synchronicity)。


共時(shí)性:指“有意義的巧合”,用于解釋因果律無法解釋的現(xiàn)象,如夢(mèng)境成真,想到某人某人便出現(xiàn)等(“說曹操、曹操到”)。榮格認(rèn)為,這些表面上無因果關(guān)系的事件之間有著非因果性、有意義的聯(lián)系,這些聯(lián)系常取決于人的主觀經(jīng)驗(yàn)。當(dāng)兩者同時(shí)發(fā)生時(shí),便稱為“共時(shí)性”現(xiàn)象。


通俗的說,當(dāng)在時(shí)間和空間上毫無聯(lián)系的兩件事同時(shí)發(fā)生時(shí),人們便會(huì)認(rèn)為有一種超自然的神秘力量把它們聯(lián)系在一起,并認(rèn)為這種巧合具備某種意義。比如在上面的例子中,股票標(biāo)碼含有偽素?cái)?shù)和股票獲得了巨大的超額收益就是一個(gè)純粹的巧合,這樣的巧合被機(jī)器學(xué)習(xí)算法發(fā)現(xiàn)并呈現(xiàn)給使用者。如果使用者不試圖去理解這兩者到底是否真的有關(guān)系,便會(huì)由于共時(shí)性而將這種錯(cuò)誤的巧合賦予某種意義,即機(jī)器學(xué)習(xí)發(fā)現(xiàn)了一個(gè)牛逼哄哄的選股模式。


4 運(yùn)氣還是實(shí)力


前面說了這么多,目的當(dāng)然不是為了否定人工智能和機(jī)器學(xué)習(xí)在二級(jí)市場(chǎng)的應(yīng)用前景。但我想說,對(duì)于人工智能發(fā)現(xiàn)的任何模式,它有效的前提是我們能夠明白無誤的理解它的含義。不能以此為基礎(chǔ)便無法分辨出好的結(jié)果到底是來自運(yùn)氣還是實(shí)力。之前,我寫過一篇文章《出色不如走運(yùn)?》。文中使用順序統(tǒng)計(jì)量(order statistic)解釋了這樣一個(gè)道理:


在眾多股票中,最好的那支總會(huì)有非常優(yōu)秀的收益率;在眾多的策略中,最厲害的那一個(gè)總會(huì)帶來令人稱奇的回報(bào)率。然而,通過計(jì)算獨(dú)立樣本的極值(順序統(tǒng)計(jì)量)分布可知,這種結(jié)果實(shí)屬必然。


我們回顧一下那篇文章中的例子。假設(shè)一個(gè)股票投資策略的年化收益率 X 符合均值為 10%,標(biāo)準(zhǔn)差為 20% 的正態(tài)分布。假設(shè)市場(chǎng)中有 m 個(gè)不同的策略,則它們中最好的那個(gè)的收益率 Y 是 X 的函數(shù),Y = max(X1, X2, …, Xm)。下圖是當(dāng) m = 3000 時(shí),最好的那個(gè)的收益率分布和單一策略收益率分布的比較:最優(yōu)策略的收益率分布在橫坐標(biāo)上向右移動(dòng)且變的更窄。


f2.png


下圖為 prob(Y≥0.7) 隨策略個(gè)數(shù) m 變化的結(jié)果。同時(shí)也給出了 Y 的均值和標(biāo)準(zhǔn)差隨 m 的變化。隨著 m 的增大,我們?cè)絹碓酱_定總會(huì)有一些策略脫穎而出,年化收益率超過 70%。這種判斷也同樣可以被 Y 的均值和方差來證明:隨著策略個(gè)數(shù)的增大,最優(yōu)策略的年化收益率的均值在增加,且標(biāo)準(zhǔn)差在減小。


f3.png


這個(gè)結(jié)果說明,當(dāng)存在大量不同的策略時(shí),最好的那一個(gè)總會(huì)異常非凡。但我們真正關(guān)心的問題是:這個(gè)策略到底是在茫茫歷史數(shù)據(jù)中找到了虛假的模式,還是發(fā)現(xiàn)了一套真正的科學(xué)投資模式?我們必須從業(yè)務(wù)層面弄清楚它是如何工作的。


5 前路漫漫


其實(shí),人們使用算法來選股并不是什么新鮮事。風(fēng)險(xiǎn)多因子模型就可以算是一個(gè)算法選股的策略。當(dāng)然,它之所以有效是因?yàn)樗褂玫囊蜃?,比如成長因子、規(guī)模因子、動(dòng)量因子等,都有著清晰的業(yè)務(wù)基礎(chǔ)。近幾年,很多人使用機(jī)器學(xué)習(xí)的復(fù)雜算法,比如支持向量機(jī),來改進(jìn)多因子選股。這些非線性算法構(gòu)建了很多非線性的因子。比如,如果算法告訴我們“雄安概念板塊,且對(duì)數(shù)市值 ÷ 三個(gè)月動(dòng)量大于 π”是一個(gè)好的模式,那我們就得好好琢磨琢磨了。


對(duì)于人工智能在二級(jí)市場(chǎng)投資的應(yīng)用,一位具有豐富實(shí)戰(zhàn)經(jīng)驗(yàn)的量化投資前輩闡述過如下的觀點(diǎn),我對(duì)此十分認(rèn)可:


我們可以相信它(人工智能)能夠捕獲到那些人類根本無法察覺到的細(xì)微模式。但是,這些模式能夠持續(xù)嗎?這些模式會(huì)不會(huì)只是一些不會(huì)重復(fù)的隨機(jī)噪聲?人工智能領(lǐng)域的專家向我們保證他們有許多防范措施用以過濾那些瞬間噪聲。并且,這些工具確實(shí)在消費(fèi)者營銷和信用卡欺詐檢測(cè)上效果顯著。消費(fèi)者行為和詐騙行為的模式顯然都具有較長的持續(xù)期,這使得這些人工智能算法即使包含大量參數(shù)也能有效運(yùn)行。然而,以我的經(jīng)驗(yàn)來看,要對(duì)金融市場(chǎng)進(jìn)行預(yù)測(cè),這種防范措施是遠(yuǎn)遠(yuǎn)不夠的,并且對(duì)歷史數(shù)據(jù)噪聲的過度擬合還會(huì)帶來嚴(yán)重后果?!鄬?duì)于可以獲取的大量相互獨(dú)立的消費(fèi)者行為和信用交易數(shù)據(jù),我們能夠獲取的在統(tǒng)計(jì)學(xué)意義上相互獨(dú)立的金融數(shù)據(jù)是非常有限的。你可能會(huì)說,我們擁有大量分時(shí)金融數(shù)據(jù)可供使用。但實(shí)際上,這些數(shù)據(jù)是序列相關(guān)的,并不是相互獨(dú)立的。


這位前輩對(duì)于人工智能何時(shí)有效給出了自己的見解:


1. 基于正確的計(jì)量經(jīng)濟(jì)學(xué)或理論基礎(chǔ),而不是隨機(jī)發(fā)現(xiàn)的模式。

2. 所需的參數(shù)用到歷史數(shù)據(jù)較少。

3. 只用到線性回歸,并未使用復(fù)雜的非線性函數(shù)。

4. 概念上很簡單。

5. 所有優(yōu)化都必須在不含未來未知數(shù)據(jù)的移動(dòng)窗口中實(shí)現(xiàn),并且這種優(yōu)化的效果必須不斷地被未來未知的數(shù)據(jù)所證實(shí)。


策略的規(guī)則越多,模型的參數(shù)越多,就越有可能發(fā)生數(shù)據(jù)窺探。能經(jīng)得起時(shí)間考驗(yàn)的往往是簡單的模型。


6 再看貝萊德的決定


作為全球最大的資產(chǎn)管理公司,貝萊德宣布使用人工智能代替基金經(jīng)理無法令人忽視,且必然會(huì)一石激起千層浪。有機(jī)構(gòu)預(yù)測(cè),到 2025 年,全球金融機(jī)構(gòu)將有 10% 的人工會(huì)被機(jī)器取代。這恐怕和越來越高昂的 alpha 不無關(guān)系。畢竟,從長期來看,絕大多數(shù)基金經(jīng)理都跑不贏指數(shù),那么要這些基金經(jīng)理還有什么用呢?


引用我的合伙人高老板的話也許可以更好的理解貝萊德的這個(gè)決定:


超額收益越來越貴,開源不行,就想辦法節(jié)流。最終投資市場(chǎng)的均衡狀態(tài)是超額收益的邊際成本恰好等于超額收益。這樣成本高的投資基金終將不斷被成本低的基金擠出市場(chǎng)。



免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。