天天看點

一文搞懂常見機率分布的直覺與聯系

資料科學,不管它到底是什麼,其影響力已不可忽視。“資料科學家比任何軟體工程師都更擅長統計學。”你可能在本地的技術聚會或者黑客松上無意中聽到一個專家這麼說。應用數學家大仇得報,畢竟從咆哮的二十年代起人們就不怎麼談論統計學了。以前聊天的時候,像你這樣的工程師,會因為分析師從來沒聽說過Apache Bikeshed(口水仗)這個分布式評論格式編排項目而發出啧啧聲。現在,你卻突然發現人們在聊置信區間的時候不帶上你了。為了融入聊天,為了重新成為聚會的靈魂人物,你需要惡補下統計學。不用學到正确了解的程度,隻需學到讓人們(基于基本的觀測)覺得你可能了解了的程度。

一文搞懂常見機率分布的直覺與聯系

正如資料結構是計算機科學的基礎,機率分布是統計學的基礎。如果你計劃像一個資料科學家一樣聊天,那麼機率分布就是你學習的起點。有時候,不怎麼了解機率分布的情況下,使用R或scikit-learn就可以完成一些簡單的分析,就像不了解哈希函數也可以編寫Java程式一樣。然而,很快你就會碰到bug和虛假的結果,并為此痛哭流涕,或者更糟:收獲統計學專業人士的歎息和白眼。

機率分布有數百種,有些聽起來像是中世紀傳說中的怪獸,比如Muth和Lomax。不過,實踐中經常出現的機率分布隻有15種。這15種機率分布是什麼?關于它們你需要記憶哪些明智的洞見?請看下文。

什麼是機率分布?

每時每刻都有各種事件正在發生:骰子擲出、雨滴落下、巴士到站。事件發生之後,特定的結果便确定了:擲出3點加4點,今日的降雨量是半英寸,巴士3分鐘到站。在事件發生之前,我們隻能讨論結果的可能性。機率分布描述我們對每種結果出現機率的想法,有些時候,我們更關心機率分布,而不是最可能出現的單個結果。機率分布有各種形狀,但大小隻有一種:機率分布的機率之和恒等于1.

例如,抛擲一枚勻質硬币有兩種結果:正面、反面。(假定硬币落地時不可能以邊緣立起,或者被空中的海鷗偷走。)在扔硬币之前,我們相信有二分之一的幾率扔到正面,或者說,0.5的機率。扔到反面的機率同理。這是扔硬币的兩種結果的機率分布。實際上,如果你充分了解了上面的話,那麼你已經掌握了伯努利分布。

除了奇異的名字之外,常見分布之間的關系直覺而有趣,是以不管是記憶它們,還是以權威的語氣評論它們,都很容易。例如,不少分布都能很自然地從伯努利分布導出。是時候揭開機率分布的互相關系地圖了。

一文搞懂常見機率分布的直覺與聯系

上圖中的每種分布都包含相應的機率品質函數或機率密度函數。本文隻涉及結果為單個數字的分布,是以橫軸均為可能的數值結果的集合。縱軸描述了結果機率。有些分布是離散的,例如,結果為0到5之間的整數,其機率品質函數圖形為稀疏的直線,每根線表示一種結果,線高表示該結果的機率。有些分布是連續的,例如,結果為-1.32到0.005之間的任意實數,其機率密度函數為曲線,曲線下的面積表示機率。機率品質函數的線高之和,機率密度函數的曲線下面積,總是等于1.

把上面這張圖列印出來放到錢包或坤包中。它能指引你厘清機率分布和它們之間的聯系。

伯努利分布和均勻分布

你已經通過上面扔硬币的例子接觸過伯努利分布了。扔硬币有兩個離散的結果——正面或反面。不過,你可以把結果看成0(反面)或1(正面)。這兩種結果發生的可能性都一樣,如下圖所示。

一文搞懂常見機率分布的直覺與聯系

伯努利分布可以表示可能性不同的結果,例如抛擲一枚不均勻的硬币。那麼,扔到正面的機率就不是0.5,而是不等于0.5的機率p,扔到反面的機率則是1-p. 和很多分布一樣,伯努利分布實際上是由參數定義的一系列分布(伯努利分布由p定義)。你可以将“伯努利”想象為“扔(可能不均勻的)硬币”。

一文搞懂常見機率分布的直覺與聯系

有多個結果,所有結果發生機率相等的分布,則是均勻分布。想象抛擲一枚勻質骰子,結果為1點到6點,出現每種點數的可能性相同。均勻分布可以由任意數目n的結果定義,甚至可以是連續分布。

一文搞懂常見機率分布的直覺與聯系

看到均勻分布,就聯想“投擲一枚均質骰子”。

二項分布和超幾何分布

二項分布可以看成遵循伯努利分布的事件的結果之和。抛擲一枚均質硬币,扔20次,有多少次扔出正面?這一計數的結果遵循二項分布。它的參數是試驗數n和“成功”(這裡的“成功”指正面,或1)的機率p。每次抛擲硬币得到的是一個遵循伯努利分布的結果,也就是一次伯努利試驗。累計類似抛擲硬币(每次抛擲硬币的結果互相獨立,成功的機率保持不變)的事件的成功次數時,想想二項分布。

一文搞懂常見機率分布的直覺與聯系

或者,你可以想像一個甕,其中放着數量相等的白球和黑球。閉上你的眼睛,從甕裡抽一個球,并記錄它是不是黑球,接着把這個球放回。重複這一過程。你有多少次抽到黑球?這一計數同樣遵循二項分布。

想象這種奇怪的場景是有意義的,因為這讓我們容易解釋超幾何分布。在上面的場景中,如果我們不放回抽取的球,那麼結果計數就遵循超幾何分布。毫無疑問,超幾何分布是二項分布的表兄弟,但兩者并不一樣,因為移除球後成功的機率改變了。如果球的總數相對抽取數很大,那麼這兩個分布是類似的,因為随着每次抽取,成功的幾率改變很小。

當人們談論從甕中抽取球而沒有提到放回時,插上一句“是的,超幾何分布”幾乎總是安全的,因為我在現實生活中從來沒碰到任何人真用球裝滿一個甕,接着從中抽球,然後放回。(我甚至不知道誰擁有一個甕。)更寬泛的例子,是從種群中抽取顯著的子集作為樣本。

泊松分布

累計每分鐘呼叫熱線的客戶數?這聽起來像是二項分布,如果你把每一秒看成一次伯努利試驗的話。然而,電力公司知道,停電的時候,同一秒可能有數百客戶呼叫。将它看成60000次毫秒級試驗仍然不能解決這個問題——分割的試驗數越多,發生1次呼叫的機率就越低,更别說2次或更多呼叫了,但是這個機率再低,技術上說,始終不是伯努利試驗。然而,如果n趨向于無限,p趨向于0,相當于在無窮多個無窮小的時間切片上,呼叫機率無窮小,我們就得到了二項分布的極限,泊松分布。

類似二項分布,泊松分布是計數的分布——某事件發生的計數。泊松分布的參數不是機率p和試驗次數n,而是平均發生率λ(相當于np)。試圖累計連續事件發生率,統計一段時間内某事件的發生數時,千萬别忘了考慮泊松分布。

一文搞懂常見機率分布的直覺與聯系

到達路由的包、到訪商店的客戶、在某種隊列中等待的事物,遇到類似這樣的事情,想想“泊松”。

幾何分布和負二項分布

從伯努利試驗又可以引出另一種分布。在第一次出現正面向上之前,扔出了多少次背面向上的硬币?這一計數遵循幾何分布。類似伯努利分布,幾何分布由參數p(成功機率)決定。幾何分布的參數不包括試驗數n,因為結果本身是失敗的試驗數。

一文搞懂常見機率分布的直覺與聯系

如果說伯努利分布是“成功了多少次”,那麼幾何分布就是“在成功前失敗了多少次”。

負二項分布是幾何分布的簡單推廣。它是成功r次前失敗的次數。是以,負二項分布有一個額外的參數,r。有時候,負二項式分布指r次失敗前成功的次數。我的人生導師告訴我,成功和失敗取決于你的定義,是以這兩種定義是等價的(前提是機率p與定義保持一緻)。

聊天時,如果你想活躍氣氛,那麼可以說,顯然,二項分布和超幾何分布是一對,但是幾何分布和負二項分布也很類似,接着提問:“我想說,誰起名字起得這麼亂?”

指數分布和威布爾分布

回到客戶支援電話的例子:距下一個客戶呼叫還有多久?這一等待時間的分布聽起來像幾何分布,因為直到終于有客戶呼叫的那一秒為止,無人呼叫的每一秒可以看成失敗。失敗數可以視為無人呼叫的秒數,這幾乎是下一次呼叫的等待時間,但還不夠接近。這次的問題在于,這樣計算出的等待時間總是以整秒為機關,沒有計入客戶最終呼叫的那一秒中的等待時間。

和之前一樣,對幾何分布取極限,趨向無窮小的時間切片,可以奏效。我們得到了指數分布。指數分布精确地描述了下一呼叫前的時間分布。它是一個連續分布,因為結果不一定是整秒。類似泊松分布,指數分布由參數發生率λ決定。

一文搞懂常見機率分布的直覺與聯系

和二項分布與幾何分布之間的關系相呼應,泊松分布是“給定時間内事件發生了多少次”,指數分布則是“直到事件發生過了多少時間”。給定一個某段時間内發生次數遵循泊松分布的事件,那麼事件間隔時間遵循參數λ相同的指數分布。正是基于這兩種分布之間的這一對應關系,在談論兩者之一時提下另一種是很安全的。

涉及“到某事件發生前的時間”(也許是“無故障工作時間”),應該考慮指數分布。實際上,無故障工作時間是如此重要,我們有一種更一般的分布對其加以描述,威布爾分布。指數分布适用于發生率(例如,損毀或故障機率)恒定的情況,威布爾分布則可以模組化随着時間而增加(或減少)的發生率。指數分布不過是威布爾分布的一個特例。

當聊天轉向無故障工作時間時,考慮“威布爾”。

正态分布、對數正态分布、t分布、卡方分布

正态分布,又稱高斯分布,也許是最重要的機率分布。它的鐘形曲線極具辨識度。像自然對數e一樣,神奇的正态分布随處可見。從同一分布大量取樣——任何分布——然後相加,樣本的和遵循(近似的)正态分布。取樣數越大,樣本之和就約接近正态分布。(警告:必須是非病态分布,必須是獨立分布,僅僅趨向正态分布)。無論原分布是何種分布,這一點均成立,真是令人驚奇。

這稱為中心極限定理,你必須知道這個名詞和它的含義,不然立遭哄笑。

一文搞懂常見機率分布的直覺與聯系

從這個意義上說,正态分布和所有分布相關。不過,正态分布和累加尤為相關。伯努利實驗的和遵循二項分布,随着試驗數的增加,二項分布變得越來越接近正态分布。它的表兄弟超幾何分布也是一樣。泊松分布——二項分布的極端形式——也随着發生率參數的增加而逼近正态分布。

如果對結果取對數,所得遵循正态分布,那麼我們就說結果遵循對數正态分布。換句話說,正态分布值的對數遵循對數正态分布。如果和遵循正态分布,那麼相應的乘積遵循對數正态分布。

一文搞懂常見機率分布的直覺與聯系

學生t-分布是t檢驗的基礎,許多非統計學家在其他學科中接觸過t檢驗。它用于推斷正态分布的均值,随着其參數的增加而更加接近正态分布。學生t-分布的主要特點是,尾部比正态分布更厚(見下圖所示,紅線為學生t-分布,藍線為标準正态分布)。

一文搞懂常見機率分布的直覺與聯系

如果厚尾的說法不能引起鄰居的驚歎,那可以講講比較有趣的和啤酒有關的背景故事。一百年前,Guinness使用統計學釀制更好的烈性黑啤酒。在Guinness,William Sealy Gosset研究出了一種新的統計學理論以種出更好的大麥。Gosset說服老闆其他釀酒商無法搞明白如何利用這些想法,取得了發表成果的許可,不過是以筆名“學生”發表。Gosset最出名的成果就是學生t-分布,某種程度上而言是以他的名字命名的。

最後,卡方分布是正态分布值的平方和的分布。它是卡方檢驗的基礎。卡方檢驗基于觀測值和理論值的差(假定差遵循正态分布)的平方和。

一文搞懂常見機率分布的直覺與聯系

伽瑪分布和貝塔分布

如果都談到卡方分布之類了,那麼談話應該算是比較嚴肅的。你可能在和真正的統計學家聊天,到了這個份上,你也許該緻歉,表示自己知道的不多,因為伽瑪分布之類的名詞會出現了。伽瑪分布是指數分布和卡方分布的推廣。伽瑪分布通常用作等待時間的複雜模型,這一點上更像指數分布。例如,伽瑪分布可以用來模組化接下來第n個事件發生前的時間。在機器學習中,伽瑪分布是一些分布的“共轭先驗”。

一文搞懂常見機率分布的直覺與聯系

别在共轭先驗的對話中插話,不過如果你真的插話了,準備好談論貝塔分布,因為它是上面提到過的大多數分布的共轭先驗。就資料科學家而言,貝塔分布的用途主要在此。不經意地提到這一點,然後朝門口移動。

一文搞懂常見機率分布的直覺與聯系

智慧的開端

機率分布的知識浩如煙海。真正對機率分布感興趣的可以從下面這張所有單元分布的地圖開始。

一文搞懂常見機率分布的直覺與聯系

希望本文能給你一點信心,讓自己看起來知識淵博,并且能融入今日的技術文化。或者,至少能為你提供一種方法,能夠以很高的機率判斷什麼時候你應該找一個不那麼書呆的雞尾酒會。

原文釋出時間為:2018-10-25

本文作者:weakish

本文來自雲栖社群合作夥伴“

深度學習自然語言處理

”,了解相關資訊可以關注“

”。

繼續閱讀