監(jiān)督學習算法中的偏差 — 方差困境

發(fā)布時間：2017-04-27 | 來源: 川總寫量化

作者：石川

摘要：監(jiān)督學習的泛化能力，即預測誤差，是由偏差和方差（以及殘余誤差）共同決定。偏差和方差之間的取舍是一個永恒的話題。

1 兩個醫(yī)生

我有兩個醫(yī)生朋友，郭妮荷與安德費婷。她倆都自稱擅長新型流感的早期防治，即通過分析過往臨床患者的體征和患病與否，她們各自形成一套診斷手段，對新的就診者進行檢查，判斷其是否患病。然而在診斷手段方面，她倆是截然不同的兩個極端。

先來說說這位郭大夫。她要查看患者的三、四十個指標，既包括常見的血常規(guī)、體溫、是否咳嗽、是否頭疼、身高、體重等，又包括看似和診斷毫無關聯(lián)的，比如飲食習慣、職業(yè)等。結(jié)合過去患者的數(shù)據(jù)，她整理出一些非常奇怪的規(guī)律。當新來的就診者的特定指標滿足她發(fā)現(xiàn)的規(guī)律后，她便可以對這名就診者是否感染病毒做出判斷。

再來看看那位安大夫。與郭大夫相比，她走的是另一個極端。憑借她多年的臨床經(jīng)驗，她自信僅僅依靠查看體溫以及號脈就能確認就診者是否感染流感。什么其他的血常規(guī)或者流感的典型癥狀，她一概不看。量量體溫、把把脈，就能告訴你患病與否。

一次，我故意將體溫弄高，并使得脈搏加快，然后就去找這兩位朋友去了。通過將我的體征和一系列令人匪夷所思的規(guī)律比對，郭大夫的診斷結(jié)果是我沒有得新型流感；而安大夫通過給我量體溫和號脈，認為我得了新型流感。翌日，我故技重施，并又去找她們診斷。這天，郭大夫用一些新的患者數(shù)據(jù)更新了她那些所謂的規(guī)律。這一更新不要緊，面對和前一天同樣狀態(tài)的我，她竟然給出了我患有新型流感的結(jié)論。而安大夫那邊倒是沒有變化，和前一日一樣的體溫和脈搏，她給出同樣的結(jié)論。就這么，我反復試了十來次，幾乎每次從郭大夫口中都得到不同的診斷結(jié)果：時而說我感染了流感，時而又說沒有。而安大夫呢？結(jié)論倒是非常一致：一直說我患有流感，然而她沒有一次是對的。

對于郭大夫，雖然她在大部分診斷中給出了正確的結(jié)論：即我沒有得流感。但是她的診斷結(jié)果的變化（波動）太大，保不齊哪天就診的時候，我就恰好趕上了她的某個更新后的規(guī)律，就給我診斷為感染了。而安大夫呢？她倒是出奇的一致，可是她的結(jié)論沒有一次是對的，和實際情況產(chǎn)生了巨大的偏差。有了這樣的經(jīng)歷，我對她倆的診斷手段自然是不敢恭維。

讀到這里，你一定發(fā)現(xiàn)了上面這個故事是虛構(gòu)的。而我的這兩位醫(yī)生朋友的名字也只不過是過擬合（overfitting）和欠擬合（underfitting）的諧音。這個故事描繪了機器學習領域，監(jiān)督學習（supervised learning）建模的一個典型問題。過往患者的體征是訓練數(shù)據(jù)的特征（features），這些患者是否被確診則是標簽（labels）。這兩位大夫通過“學習”這些患者的資料和診斷結(jié)果，總結(jié)了自己的診斷手段，這個過程就是建模（modelling）。最終，她們?yōu)槲以\斷則相當于對新的數(shù)據(jù)（訓練集樣本外數(shù)據(jù)）進行預測（forecasting）。這些步驟構(gòu)成了完整的機器學習過程。

當監(jiān)督學習算法建模時，我們會經(jīng)常遇到上面提到的過擬合或欠擬合的問題。過擬合的模型對于樣本外數(shù)據(jù)的預測會有較大的方差；而欠擬合的模型對樣本外數(shù)據(jù)的預測會有較大的偏差。偏差和方差就是監(jiān)督學習算法預測誤差中重要的兩個組成部分（還有第三個部分是問題固有的殘余誤差），也是一對矛盾的統(tǒng)一體。任何算法都必須在偏差和方差之間取舍。

這就是我們今天的話題。

2 監(jiān)督學習模型的泛化能力

通俗的說，監(jiān)督學習指的是，使用帶有標簽的樣本數(shù)據(jù)來訓練一個機器學習模型，并用這個模型對新發(fā)生的樣本（unseen data）進行定量分析。具體的，監(jiān)督學習包括回歸（regression）和分類（classification）。前者的響應變量一般是一個連續(xù)變量，比如我們可以構(gòu)建一個回歸模型，利用過去的價格以及公司基本面數(shù)據(jù)作為特征，來預測股票的收益率，這里收益率就是一個連續(xù)變量。反觀后者，它的響應變量一般是一個離散的類別，比如通過構(gòu)建分類模型，我們可以進行垃圾郵件的識別。

當我們把機器學習應用到量化投資領域時，監(jiān)督學習無疑具備廣闊的應用前景。然而，就像本文第一節(jié)的故事描述的那樣，要想衡量一個機器學習模型的效果，必須考察它對樣本外數(shù)據(jù)預測的準確性。因為我們針對用于建模的訓練數(shù)據(jù)，我們可以構(gòu)建出非常精準的模型，但是這對于模型是否對未來數(shù)據(jù)仍然有效毫無意義。一個好的模型必須對樣本外數(shù)據(jù)具備出色的泛化效果（generalization performance），評價泛化能力的依據(jù)正是模型在樣本外數(shù)據(jù)的預測誤差。

3 預測誤差的組成

監(jiān)督學習模型對樣本外數(shù)據(jù)的預測誤差由三部分構(gòu)成：偏差（bias）、方差（variance）、以及固有的殘余誤差（irreducible error）。殘余誤差來自問題本身的隨機噪聲（noise），是無法避免的。換句話說，即便我們知道問題的真實模型，我們的預測仍然會有一定的誤差，該誤差源自問題的隨機噪聲，該噪聲帶來的誤差就是我們預測誤差的下限。在現(xiàn)實世界中，問題的真實模型是未知的，因此我們只能通過已有的樣本數(shù)據(jù)來得到真實模型的一個估計（estimate）。無論我們怎么估計，估計模型的預測結(jié)果和未知真實模型的預測結(jié)果也總會有差別，這便引入了偏差和方差。

偏差：來自建模時對問題真實模型的錯誤假設（erroneous assumptions）。一個模型的樣本外預測有很大的偏差往往意味著它沒有有效的發(fā)現(xiàn)自變量（特征）和響應變量（標識）之間的關系；該模型存在欠擬合。

比如我們的安大夫，如果新型流感可以通過血常規(guī)中的某個血項來分辨，那么甭管她怎么量體溫或者號脈，都無法發(fā)現(xiàn)這個體征和是否感染流感的關系。又或者，如果一個問題的真實模型是非線性的，而我們卻用了一個線性模型來建模，那么它無論如何也捕捉不了自變量和響應變量之間的非線性關系。

方差：源自建模過程中對訓練集數(shù)據(jù)變化的過度敏感（over-sensitivity to training data）。一個模型的樣本外預測有很高的方差意味著它發(fā)生過擬合：它可能過度關注自變量和響應變量之間的非顯著關系，或者錯誤對隨機噪聲建模。

比如我們的郭大夫過度的關注了幾十個體征變量，這導致她的診斷對過往病患的數(shù)據(jù)非常敏感，以至于在對新病患預測時，預測結(jié)果出現(xiàn)很大的波動。

4 偏差 — 方差困境

讓我們用數(shù)學語言來更精確的解釋偏差和方差。假設特征變量（通常為一個 n 維向量）為 x，響應變量為 y。它們之間的關系由一個未知的真實函數(shù) f 和隨機噪聲 ε 描述，即：

可見，響應變量 y 和自變量 x 之間的真實關系為 f；而 ε 則代表隨機噪聲，通常被假設為符合均值為 0、標準差為 σ 的正態(tài)分布。由于 f 未知，我們希望通過監(jiān)督學習，利用訓練集樣本數(shù)據(jù)得到一個 f 的估計，記為 \hat f。對于新的數(shù)據(jù)，利用該估計進行預測。

在求解 f 的估計的過程中，機器學習算法看到的僅僅是自變量 x 和響應變量 y。通過考察 x 和 y 的關系，它必須盡可能的分辨出 y 的變化中，哪部分是源自 x 和 y 之間的真正規(guī)律（regularities），而哪部分是由問題本身的隨機噪聲帶來的。監(jiān)督學習模型的樣本外誤差可以定義為預測值和真實值之間的均方誤差（mean squared error），即：

這個誤差可依下式分解：

其中，第一項為問題固有的殘余誤差，來自隨機噪聲；第二項為預測的方差；第三項為預測的偏差（的平方）。需要特別說明的是，數(shù)學期望 E[] 是概率論中的概念，它定義為一個隨機變量在其概率空間內(nèi)取值按照對應概率的加權(quán)平均值。當數(shù)學期望 E[] 應用于監(jiān)督學習模型在樣本外的預測誤差時，這里的概率空間由自變量 x 和響應變量 y 的未知聯(lián)合分布 prob(x, y) 刻畫，取決于未知函數(shù) f 和隨機噪聲 ε；而這個概率空間內(nèi)的“隨機變量的實現(xiàn)”則是一個個不同的訓練集，每個訓練集都是所有歷史數(shù)據(jù)的一個子集。由此可知，這里求解期望的過程時作用于不同的訓練子集上。

對于一個給定的模型結(jié)構(gòu)（比如線性模型或者二項式模型），使用不同的訓練集訓練便得到模型不同的參數(shù)；將使用這些來自不同訓練集的模型對新的樣本點進行預測，得到多個預測值。這些預測值的平均值和真實值得差異就是偏差；這些預測值之間的差異就是方差：

偏差是“使用不同訓練集得到的多個模型對新樣本的響應變量的多個預測結(jié)果的平均值”與“該新樣本響應變量的真實取值”之間的差異。

方差則衡量“不同的訓練數(shù)據(jù)集得到的模型對新樣本的響應變量的多個預測結(jié)果”之間的差異。

在實際應用中，可以采用 K 疊交叉驗證（K fold cross-validation）將所有數(shù)據(jù)分為 K 個訓練集，以此來計算預測的偏差和方差。我們會在今后找時間介紹交叉驗證。

來看一個例子。假設真實的函數(shù) f 為正弦函數(shù) sin，即 y = sin(x) + ε。下圖中藍色的離散點是由這個過程產(chǎn)生的不同 x 值對應的響應值；黑色曲線代表這個真實函數(shù) f = sin。由于 ε 的存在，藍色的離散點并沒有坐落在黑色正弦曲線上，而是隨機分布在黑色曲線的上上下下。對于機器學習來說，f = sin 是未知的，它需要通過分析這些離散點，找到 y 隨 x 變化的真實規(guī)律。

我們基于不同假設產(chǎn)生了三個復雜程度不同的模型，作為對真實函數(shù) f 的估計：第一個模型是一個線性模型（綠色）；第二個模型是一個三次的多項式模型（藍色）；最后一個模型是一個二十次的多項式模型（紅色）。對于這個例子，線性關系顯然不是一個好的模型，它忽視了 x 和 y 之間的非線性關系；多項式模型則能夠捕捉 x 和 y 的關系。

然而，一個優(yōu)秀的模型不僅要通過訓練集數(shù)據(jù)正確的發(fā)現(xiàn) x 和 y 的關系，更要對樣本外數(shù)據(jù)有優(yōu)秀的泛化能力，做到低偏差和低方差。當然，雙低是很難共存的。事實上，偏差和方差與模型的復雜度有如下關系；

當模型的復雜度很低時，很容易發(fā)生欠擬合，即模型無視了 x 和 y 之間的真實關聯(lián)，把 y 隨 x 的變化看作是隨機誤差。這么做雖然使得模型在不同訓練集之間的預測結(jié)果方差較?。ㄒ驗樗揪蜎]從這些子集中學出來多少有效的規(guī)律），但是預測均值和真實值的偏差很大。隨著復雜度的提升，模型可以越來越精準的描述訓練集數(shù)據(jù)，因此模型的偏差越來越小。然而如果模型過度關注每個訓練子集中 x 和 y 的片面關系或者噪聲（過擬合），它必將忽視共存于所有訓練子集（即全體歷史數(shù)據(jù)）中的 x 和 y 的重要關系。由此會使得不同訓練集訓練出來的模型對新樣本產(chǎn)生不同的預測結(jié)果，導致預測的方差增大。

在上面這個例子中，二十次多項式模型雖然有更低的偏差，但是它的方差卻很大。綜合考慮偏差和方差，它的預測效果不如三次多項式模型。事實上，由于在這個假想的例子中，我們知道真實函數(shù) f = sin，可以看到，三次多項式模型和真實的 sin 函數(shù)非常接近。

總結(jié)來說：

簡單模型，容易欠擬合，方差小，偏差大；

復雜模型，容易過擬合，偏差小，方差大。

下圖是不同模型和方差以及偏差的關系。注意，這僅僅是一個非常簡化的示意圖。它似乎說明如果必須從欠擬合和過擬合模型選擇，我們應該傾向于欠擬合模型，因為它的預測結(jié)果相對一致，我們只要把它們整體平移一個偏差值，便可以得到準確的預測。但是，千萬不要被這個簡單的示意圖誤導，因為生活中的實際問題遠遠比這個圖復雜的多，我們遠沒有神之一手來修正偏差。相反，低偏差高方差的模型（假設已經(jīng)杜絕了過擬合）往往是更有希望的。這是因為可以利用集成學習元算法（ensemble learning?meta?algorithm）來降低預測模型的方差，從而提高模型的泛化能力。裝袋算法（bagging）、提升算法（boosting）、隨機森林（random forest）對于分類樹的改進都是這樣的例子。

監(jiān)督學習的泛化能力，即預測誤差，是由偏差和方差（以及殘余誤差）共同決定。偏差和方差之間的取舍是一個永恒的話題。在模型的復雜度和預測效果之間找到一個最佳的平衡點，這不僅依賴于更先進的機器學習算法不斷的被發(fā)現(xiàn)，同時訓練集的數(shù)據(jù)質(zhì)量是否足夠高也至關重要。

過猶不及。

免責聲明：入市有風險，投資需謹慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外，文中圖表均直接或間接來自于相應論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

監(jiān)督學習算法中的偏差 — 方差困境