貝葉斯統(tǒng)計

發(fā)布時間：2017-03-03 | 來源: 川總寫量化

作者：石川

摘要：貝葉斯統(tǒng)計在生活和量化投資中都有著廣泛的應(yīng)用。本文就為你打開貝葉斯統(tǒng)計的大門。

1 概率論和統(tǒng)計學(xué)

簡單來說，概率論和統(tǒng)計學(xué)解決的問題是互逆的。假設(shè)有一個具有不確定性的過程（process），然后這個過程可以隨機的產(chǎn)生不同的結(jié)果（outcomes）。則概率論和統(tǒng)計學(xué)的區(qū)別可以描述為：

在概率論（probability theory）中，我們已知該過程的概率模型，該模型的不確定性由相應(yīng)的概率分布來描述；概率論要回答的問題是該過程產(chǎn)生某個結(jié)果的可能性有多大這類問題。

在統(tǒng)計學(xué)（statistics）中，該過程的概率模型對我們來說是未知的，但是我們有一系列該過程產(chǎn)生的結(jié)果的觀測值；我們希望通過這些觀測值來推斷出這個過程中的不確定性是什么樣的。

總結(jié)來說就是：通過已知的概率模型來精確的計算各種結(jié)果的可能性就是概率論；根據(jù)觀測的結(jié)果來推斷模型的不確定性就是統(tǒng)計學(xué)。

如果上面的描述依然晦澀，請看下面這個例子。假設(shè)桶里面有 100 個小球，小球分為白色和黑色。如果已知桶里面一共有 30 個白球和 70 個黑球，想回答隨機從桶中摸出一個白球（或者黑球）的概率是多少這樣的問題，這就屬于概率論的范疇。而如果已知通過有放回的采樣抽出了 10 個球并且其中 4 個白球 6 個黑球，想要推斷的是小桶里面白球（或者黑球）的百分比（這些對我們來說是未知的），這就是統(tǒng)計學(xué)的范疇。

對于概率論來說，每一個問題都有唯一的答案。通過相關(guān)計算，總可以計算出我們關(guān)心的結(jié)果發(fā)生的概率。反觀統(tǒng)計學(xué)，它更像是一門藝術(shù)。因為要推斷的模型是未知的，因此很難說哪種推斷方法就優(yōu)于另一種方法，或者哪種推斷結(jié)果就比其他結(jié)果更加正確。就拿上面的例子來說，雖然觀測到的 10 個球中有 4 個白球和 6 個黑球，但我們?nèi)圆荒軘嘌酝袄锇浊蛘?40% 的推斷就一定比桶里白球占 50% 或者 30% 的推斷更加準確。

2 古典統(tǒng)計學(xué)和貝葉斯統(tǒng)計學(xué)

統(tǒng)計學(xué)領(lǐng)域中有兩大學(xué)派：古典統(tǒng)計學(xué)（classical）和貝葉斯統(tǒng)計學(xué)（Bayesian，以英國數(shù)學(xué)家托馬斯?貝葉斯命名）。古典統(tǒng)計學(xué)又稱為頻率論（frequentist）。關(guān)于這倆大學(xué)派孰優(yōu)孰劣已有一個世紀的爭論。它們的本質(zhì)區(qū)別在于對待未知模型或者參的方法是不同的：

古典統(tǒng)計學(xué)認為，未知的模型或者參數(shù)是確定的，只不過我們不知道它確切的形式或者取值。

貝葉斯統(tǒng)計學(xué)認為，未知的模型或者參數(shù)變量是不確定的，但是這種不確定性可以由一個概率分布來描述。

古典統(tǒng)計學(xué)通過進行大量重復(fù)實驗并統(tǒng)計某個特定結(jié)果出現(xiàn)的頻率作為對未知參數(shù)的估計。以猜桶中白球的比例為例，頻率論者會進行大量的帶放回的獨立抽取實驗（實驗可以做到天荒地老?？菔癄€），然后計算所有結(jié)果中白球出現(xiàn)的頻率，以此作為對小球中白球比例的推斷。古典統(tǒng)計學(xué)的核心在于通過大量的實驗來消除模型或者參數(shù)估計中的不確定性（因為它假設(shè)未知模型或者參數(shù)是確定的）。

貝葉斯統(tǒng)計學(xué)則截然不同。貝葉斯統(tǒng)計學(xué)“使用概率的方法來解決統(tǒng)計學(xué)問題”。如前所述，貝葉斯統(tǒng)計學(xué)認為未知的模型或者參數(shù)是不確定的、符合某個概率分布。特別的，我們會首先根據(jù)主觀判斷或者過去的經(jīng)驗，對這個概率分布有一個猜測，稱為先驗分布（prior distribution）；然后根據(jù)越來越多的觀測值（new data 或者 new evidence）來修正對該概率分布的猜測，最后得到的概率分布稱為后驗分布（posterior distribution）。貝葉斯統(tǒng)計學(xué)中的“概率”的概念可以被解釋為我們對未知變量不同取值的信心程度的測度（measure of confidence）。貝葉斯統(tǒng)計不消除未知變量的不確定性，而是通過越來越多的新的觀測點來持續(xù)更新我們對于該未知變量不確定性的認知，提高我們對不確定性的判斷的信心。

對于上面這個例子，假設(shè)在觀測值出現(xiàn)之前，我們猜測桶中有 50% 的白球和 50% 的黑球。因此 50% 是我們對白球比例的先驗信仰（prior belief）。隨著不斷進行抽取實驗，我們會根據(jù)得到的觀測值更新我們的信仰。假設(shè) 10 次抽取后得到 4 個白球和 6 個黑球，那么此時我們對白球比例的信仰就會從最初的 50% 減少一些，這是因為我們結(jié)合新的證據(jù)（即觀測的 10 個球中僅有 40% 是白球）更新了猜測。假設(shè) 100 次抽取后得到了 35 個白球和 65 個黑球，那么此時我們對白球比例的信仰又會繼續(xù)更新。隨著越來越多的觀測值，我們會持續(xù)更新猜測，并且對該猜測的信心程度也會越來越高，即未知變量（在這里是白球比例）后驗分布的標準差會越來越?。ê竺鏁ㄟ^一個扔硬幣的例子說明）。

貝葉斯統(tǒng)計學(xué)派被古典統(tǒng)計學(xué)派詬病的核心問題是對于未知變量的先驗分布是非常主觀的。顯然，哪怕是一個最簡單的問題，不同的人也會有不同的考慮。比如桶中白球比例這個例子。一個普通人會同意 50% 是一個合理的先驗猜測。但是，極端的人也許會使用 0% 或者 100% 白球作為他的先驗猜測。不過，盡管不同人可以有不同的先驗分布，但是隨著他們結(jié)合新的觀測點來更新自己的信仰，我們會發(fā)現(xiàn)他們最終得到的后驗分布是會逐漸收斂的。此外，對很多生活中的實際問題，使用一個合理的猜測（educated guess）作為先驗是很有好處的。

3 為什么要學(xué)習(xí)貝葉斯統(tǒng)計學(xué)

貝葉斯統(tǒng)計在生活以及量化投資中有著廣泛的應(yīng)用。從下面兩個意義上說，相對古典統(tǒng)計，貝葉斯統(tǒng)計有明顯的優(yōu)勢：

1. 雖然在上面抽小球的例子中我們進行大量重復(fù)性的實驗并計算白球的頻率（古典統(tǒng)計學(xué)手段），但對于是在生活中的很多實際問題，大量重復(fù)實驗是不現(xiàn)實的。比如我們想推斷川普當選美國總統(tǒng)的概率。顯然，我們沒法讓美國人進行成千上萬次不同的投票選舉，然后計算川普獲勝的頻率。即便是通過民意調(diào)查的方式，進行成千上萬次也是不切實際的（簡單從成本的角度考慮就不可能）。因此，對于這個問題我們只能有非常有限的幾次民意調(diào)查結(jié)果。我們當然可以只通過這些有限的結(jié)果利用古典統(tǒng)計學(xué)對川普獲勝的概率做出估計，但是可以想象的是這個估計的誤差會非常大。而貝葉斯統(tǒng)計則提供了新的視角。

2. 合理的先驗分布對未知量的估計是非常有益的。對生活中很多實際問題的判斷都和人們的學(xué)識、經(jīng)驗、見識有關(guān)。在這種情況下，如果我們把有限和觀測數(shù)據(jù)和根據(jù)知識和經(jīng)驗得到的先驗結(jié)合起來，會得到對未知量更好的推斷。就拿對股票收益率的預(yù)測這件事來說，我們之前的文章《收益率預(yù)測的貝葉斯收縮》中提到了使用貝葉斯統(tǒng)計可以得到更小的估計誤差。而高盛著名的 Black–Litterman 收益率模型就是將從市場均衡假設(shè)推出的資產(chǎn)收益率作為先驗，將基金經(jīng)理的主觀判斷作為觀測值，通過把它們兩者結(jié)合來得到后驗判斷。它的本質(zhì)也是貝葉斯統(tǒng)計。

可見，掌握貝葉斯統(tǒng)計并且使用它做推斷，即貝葉斯推斷（Bayesian inference），十分重要。貝葉斯統(tǒng)計框架的核心無疑就是貝葉斯定理（Bayes’ rule）。

4 貝葉斯定理

本節(jié)簡要介紹貝葉斯定理，它是貝葉斯推斷的核心。貝葉斯定理的推導(dǎo)始于條件概率。條件概率可以定義為：在事件 B 發(fā)生的前提下，事件 A 發(fā)生的概率。數(shù)學(xué)上用?P(A|B)?來表示這個條件概率。生活中條件概率屢見不鮮。比如在沒有趕上 8 點這趟地鐵，上班遲到的概率是多少？

條件概率?P(A|B)?的數(shù)學(xué)定義為：

這個公式的白話解釋為：“當 B 發(fā)生前提下 A 發(fā)生的概率”等于“A 和 B 同時發(fā)生的概率”除以“B 發(fā)生的概率”。用我們的例子來說，那就是“在沒有趕上?8?點這趟地鐵的前提下，上班遲到的概率”等于“沒趕上?8?點這趟地鐵且上班遲到的概率”除以“沒趕上?8?點這趟地鐵的概率”。將這個式子左右兩邊同時乘以?P(B)?得到 P(B)P(A|B) =?P(A∩B)。

類似的，我們也可以求出?P(B|A)，即在 A 發(fā)生的前提下，B 發(fā)生的概率是多少。在上面例子中，這對應(yīng)著“在上班遲到的前提下，沒有趕上?8?點這趟地鐵的概率是多少”？（上班遲到的原因可能很多，比如沒趕上這趟地鐵是一個，又比如趕上地鐵了但是下地鐵后去辦公樓咖啡館里耽擱了?10?分鐘也是一個，或者因為早上發(fā)燒先去醫(yī)院了等等。）根據(jù)定義：

同樣，兩邊同時乘以?P(A)?（并且由?P(A∩B) = P(B∩A)）得到?P(A)P(B|A) =?P(A∩B)。由此可知?P(B)P(A|B) = P(A)P(B|A)。這個結(jié)果也可以寫作如下形式，即大名鼎鼎的貝葉斯定理：

5 貝葉斯推斷

由貝葉斯定理可以順其自然得到貝葉斯推斷。前文提到，貝葉斯統(tǒng)計的核心是通過新的觀測數(shù)據(jù)（或者新的證據(jù)）來不斷的更新我們對未知量的認知。

考慮一個假想的例子。假設(shè)我們的先驗認知是明天太陽不會升起（即明天太陽不會升起的概率為 1）。然而，實際觀測到的證據(jù)是每天太陽都照常升起。由此，我們會不斷的修正之前那個先驗，由此得到的后驗認知是下一天太陽不會升起的概率越來越低。通過新證據(jù)或者數(shù)據(jù)來更新認知的過程就是貝葉斯推斷。下面我們來正式的描述它。

假設(shè)我們有一個需要估計的未知量?θ，并且針對該變量有一個先驗分布?P(θ)。令?D?為一系列觀測值或者證據(jù)。我們希望通過?D?來修正對?θ?的分布的認知，即?P(θ|D)?是我們感興趣的。由貝葉斯定理可得：

在貝葉斯推斷的框架下，上面公式中的這些概率量都有約定俗成的名字：

P(θ)：θ?的先驗分布（prior）。它表示在沒有任何觀測值序列?D?時我們對于?θ?的不確定性的認知。

P(θ|D)：θ?的后驗分布（posterior）。它表示在考慮了觀測值序列?D?后，我們對于θ?的不確定性的改進的認知。

P(D|θ)：似然函數(shù)（likelihood）。它是當未知變量服從?θ?的前提下，我們觀察到序列?D?的條件概率。

P(D)：觀測值或證據(jù)（evidence）。這是在考慮所有可能的?θ?的分布下，所能觀測到序列?D?的非條件概率。

可見，通過使用貝葉斯推斷，我們可以合理的將先驗認知和實際證據(jù)結(jié)合在一起，得到一個更新的后驗認知。此外，貝葉斯推斷框架的強大之處在于我們可以迭代的看問題，即在每次有新觀測數(shù)據(jù)后我們可以得到一個新的后驗分布，然后把它作為下個新數(shù)據(jù)出現(xiàn)前的（新的）先驗分布。換句話說，在這個過程中我們通過反復(fù)迭代使用貝葉斯定理，持續(xù)更新對未知量的分布的認知。

6 一個例子

下面通過一個具體的例子來說明貝葉斯推斷的過程。假設(shè)我們有一枚硬幣，并且想要推斷出扔硬幣時得到頭像（正面，heads）的概率?P(H)?是多少。用?θ?來表示這個概率。通過反復(fù)扔這枚硬幣便可以得到一個由正面和（或）反面結(jié)果組成的觀測序列，這就是觀測序列?D。

假設(shè)在開始扔硬幣前，我們對?θ?的分布?P(θ)?有如下先驗猜想：θ?可以是?0?到?1?范圍內(nèi)的任何取值，并且均勻分布（比如?θ?等于?0?說明該硬幣兩面都不是頭像；θ?等于?1?說明該硬幣兩面都是頭像；θ?等于?0.5?意味著該硬幣一面頭像一面非頭像，且質(zhì)地均勻等）。在這個假設(shè)下，θ?的先驗概率密度函數(shù)為?0?到?1?之間的一條水平線（下圖）。

下面我們開始扔硬幣。假設(shè)扔了兩次后，得到了兩次頭像。根據(jù)貝葉斯推斷（具體數(shù)學(xué)計算略去，下同），我們得到關(guān)于?θ?的更新后的（后驗）概率密度函數(shù)如下圖所示?？梢娪捎谶B續(xù)看到兩次頭像面的結(jié)果，我們開始傾向于認為?θ?的取值是越接近?1?越有可能。

讓我們繼續(xù)實驗。假如我們?nèi)恿?10?次后得到?8?次正面，而扔了?20?次后得到了?11?次正面。根據(jù)這些結(jié)果，我們不斷更新?θ?的后驗分布（下圖）。?當?10?次中有?8?次正面時，我們會認為這個硬幣很有可能是不公平的，即正面和反面出現(xiàn)的概率不同。而當?20?次中出現(xiàn)?11?次正面時，我們的認知會再次根據(jù)新的結(jié)果得到修正，我們開始認為這個硬幣可能是公平的了。

最后，下面兩張圖是經(jīng)過了?50?次（27?次正面）和?500?次（232?次正面）實驗后的?θ?的后驗分布。

隨著越來越多的新結(jié)果的出現(xiàn)，我們對于?θ?的不確定性的認知越來越清晰；對于?θ?的不同取值的信心越來越高。特別的，我們越來越有把握的說?θ?最有可能的取值是?0.5?附近。這體現(xiàn)在?500?次實驗后，θ?的后驗分布?P(θ|D)?已經(jīng)非常狹窄（換句話說，θ?的取值的標準差越來越?。?，且集中在?0.46?附近。假如這枚硬幣確實是一枚公平的硬幣，那么如果再進行?500?此實驗，會發(fā)現(xiàn)?P(θ|D)?會更加狹窄且?θ?的取值一定會集中在?0.5?附近。

這個例子完美的展示了貝葉斯推斷的強大。我們一開始對未知量?θ?的猜測有非常大的不確定性（先驗是?0?到?1?的均勻分布）。隨著越來越多的觀測值（500?個實驗結(jié)果）的出現(xiàn)，通過迭代使用貝葉斯定理，逐步細化、完善我們對?θ?的不確定性的認知，最終得到了關(guān)于?θ?的不確定性的非常自信的后驗分布（即?θ?的分布以?0.5?為中心，標準差非常小，它最有可能的取值就是?0.5）。

無疑，貝葉斯統(tǒng)計是一個強大的工具。當然，不熟悉它的人卻對其敬而遠之。下面是網(wǎng)上關(guān)于貝葉斯統(tǒng)計的一個笑話。它雖然透著作者的“無知”，但可能卻代表著很多吃瓜群眾對貝葉斯統(tǒng)計的看法，以及貝葉斯統(tǒng)計學(xué)派的自嘲：

A?Bayesian is one who,?vaguely expecting a horse, and catching a glimpse of a donkey, strongly believes he has seen a mule.

免責(zé)聲明：入市有風(fēng)險，投資需謹慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

貝葉斯統(tǒng)計