天天看點

最大似然估計和最大後驗機率估計

最大似然估計

似然函數

似然函數是一種關于統計模型中參數的函數,表示模型參數中的似然性。

給定觀測量x時,關于參數θ的似然函數L(θ)(在數值上)等于給定參數θ後變量x的機率:

L(θ)=L(θ|x)=pθ=p(x|θ)=p(x;θ)

最大似然估計

給定一組觀測量 {x1,x2...xn} 并假設它們獨立同分布,我們可以得到參數 μ 的似然函數

L(μ)=p(x1,x2,...xn;μ)=∏i=1np(xi;μ)

為了估計 μ ,我們假設 μ 是使得觀測量出現機率最大的一組參數。即

μ=argmaxμiL(μi)

為最大化似然函數,我們需要對它進行求導,為使得求導友善,一般對目标取log。是以最後求解的問題變成了

μ=argmaxμlog(L(μ))

一個例子

  • 在一個50人左右的班級門口走動,發現從門口出來了10個人,其中3個男生,7個女生。估算從從門口出來的人是男生的機率?

使用最大似然的方法進行估計。假設走出來的人是男生的機率為 μ ,走出來的人是女生的機率為1-p。我們的觀測量是十個人裡面走出來的男生的數量。顯然這是一個二項分布。

p(x;μ)=Cx10μx(1−μ)(10−x)

它的log-likelihood為

log(L(μ))=logCx10+xlogμ+(10−x)log(1−μ)

對它求導得到 xμ−10−x(1−μ)=0

帶入x=3,得到 μ=0.3

即從教室出來的人是男生的機率為0.3。

這個機率也可以(在不考慮其他條件的情況下)了解為男生占班上人數的大概30%。

最大後驗估計

條件機率公式

條件機率是指事件A在另外一個事件B已經發生條件下的發生機率。條件機率表示為:P(A|B),讀作“在B條件下A的機率”。 P(A|B)=P(AB)P(B)

  • 解釋:聯合機率分布除以獨立分布得到邊緣分布

全機率公式

設B1,B2,…Bn是一組事件,若

  1. 它們兩兩互斥
  2. B1∪B2∪…∪Bn=Ω

則稱B1,B2,…Bn樣本空間Ω的一個劃分,或稱為樣本空間Ω 的一個完備事件組。

設事件組 {Bi} 是樣本空間Ω 的一個劃分,且P(Bi)>0 (i=1,2,…n),則有

P(A)=∑i=1nP(Bi)P(A|Bi)

稱為全機率公式

  • 解釋:某事件的機率分布可以通過劃分成不同條件下的機率分布,再進行累加求解。

貝葉斯公式

由條件機率公式我們可以得到

P(AB)=P(A|B)P(B)=P(B|A)P(A)

進而有

P(B|A)=P(A|B)P(B)P(A)

  • 解釋:設B為待估計量。A為觀測量。知道B的先驗P(B),和B的似然L(B)=P(A|B)。我們可以求解出B的後驗機率P(B|A),也即在目前的觀測A下B出現的機率。

設B1,B2,…Bn…是一完備事件組,則對任一事件A,P(A)>0,有

P(Bi|A)=P(ABi)P(A)=P(Bi)P(A|Bi)∑niP(Bi)P(A|Bi)

  • 解釋:上面的推廣

貝葉斯估計

貝葉斯估計将待估計參數看作随機變量。假設觀測量為x={ xi },參數的先驗機率分布為 p(μ) 。使用貝葉斯定理,我們有 p(μ|x)=p(x|μ)p(μ)∑nip(μi)p(x|μi)

由此我們可以得出參數的後驗分布,即在目前觀測量的情況下得到的參數的機率分布。

最大後驗機率估計

上式中的分母在實際情況中往往很難計算,是以我們一般不計算出完整的參數的機率分布。這樣我們就得到了參數的後驗機率 p(μ|x)=p(x|μ)p(μ) 。取

μˆ=argmaxμip(x|μi)p(μi)

就得到了參數的最大後驗估計。可以看到,最大後驗估計與最大似然估計隻相差一個先驗機率。

一個例子

使用和前面相同的一個例子。

這個例子中的先驗是什麼?

考慮 μ 的先驗分布。我們知道一般來說男女比例是相當的。在此題中沒有提到任何具體的資訊。于是假設随機變量 μ 的均值為0.5。進而 E(μ)=αα+β=0.5→α=β 。

可以假設 μ 同樣表征了男生占人數的比例。假設班上有n個人,其中有 nm 個男生, nm 可以看成一個二項分布,它的方差為 np(1−p) 。于是 μ 的方差為 np(1−p)/n2=0.005

于是 var(μ)=αβ(α+β)2(α+β+1)=0.005 得到 α=β=24.5

(當然更好的思路是直接假設 μ 是離散分布,為了直接套用一些結論這裡就不推了)

由此得到後驗機率

p(μ|x)=p(x|μ)∗p(μ)

其中x為10個人中男生的數量。 p(x|μ) 仍為二項分布。 p(μ) 為參數的先驗機率分布, p(μ)=Beta(μ|α,β) 。

為了最大化後驗機率,我們對它的對數函數求導,其中 p(x|μ) 的對數函數的導數上面已經求過了。beta分布的對數函數導數為

ddμlog Beta(μ|α,β)=α−1μ−β−11−μ

令後驗機率對數函數的導數為零,我們求解得到

μˆ=x+α−1n′+β+α−2

其中 n′ 為走出教室的總人數。

帶入資料我們得到 μˆ=0.456 。

繼續閱讀