最大似然估計
似然函數
似然函數是一種關于統計模型中參數的函數,表示模型參數中的似然性。
給定觀測量x時,關于參數θ的似然函數L(θ)(在數值上)等于給定參數θ後變量x的機率:
L(θ)=L(θ|x)=pθ=p(x|θ)=p(x;θ)
最大似然估計
給定一組觀測量 {x1,x2...xn} 并假設它們獨立同分布,我們可以得到參數 μ 的似然函數
L(μ)=p(x1,x2,...xn;μ)=∏i=1np(xi;μ)
為了估計 μ ,我們假設 μ 是使得觀測量出現機率最大的一組參數。即
μ=argmaxμiL(μi)
為最大化似然函數,我們需要對它進行求導,為使得求導友善,一般對目标取log。是以最後求解的問題變成了
μ=argmaxμlog(L(μ))
一個例子
- 在一個50人左右的班級門口走動,發現從門口出來了10個人,其中3個男生,7個女生。估算從從門口出來的人是男生的機率?
使用最大似然的方法進行估計。假設走出來的人是男生的機率為 μ ,走出來的人是女生的機率為1-p。我們的觀測量是十個人裡面走出來的男生的數量。顯然這是一個二項分布。
p(x;μ)=Cx10μx(1−μ)(10−x)
它的log-likelihood為
log(L(μ))=logCx10+xlogμ+(10−x)log(1−μ)
對它求導得到 xμ−10−x(1−μ)=0
帶入x=3,得到 μ=0.3
即從教室出來的人是男生的機率為0.3。
這個機率也可以(在不考慮其他條件的情況下)了解為男生占班上人數的大概30%。
最大後驗估計
條件機率公式
條件機率是指事件A在另外一個事件B已經發生條件下的發生機率。條件機率表示為:P(A|B),讀作“在B條件下A的機率”。 P(A|B)=P(AB)P(B)
- 解釋:聯合機率分布除以獨立分布得到邊緣分布
全機率公式
設B1,B2,…Bn是一組事件,若
- 它們兩兩互斥
- B1∪B2∪…∪Bn=Ω
則稱B1,B2,…Bn樣本空間Ω的一個劃分,或稱為樣本空間Ω 的一個完備事件組。
設事件組 {Bi} 是樣本空間Ω 的一個劃分,且P(Bi)>0 (i=1,2,…n),則有
P(A)=∑i=1nP(Bi)P(A|Bi)
稱為全機率公式
- 解釋:某事件的機率分布可以通過劃分成不同條件下的機率分布,再進行累加求解。
貝葉斯公式
由條件機率公式我們可以得到
P(AB)=P(A|B)P(B)=P(B|A)P(A)
進而有
P(B|A)=P(A|B)P(B)P(A)
- 解釋:設B為待估計量。A為觀測量。知道B的先驗P(B),和B的似然L(B)=P(A|B)。我們可以求解出B的後驗機率P(B|A),也即在目前的觀測A下B出現的機率。
設B1,B2,…Bn…是一完備事件組,則對任一事件A,P(A)>0,有
P(Bi|A)=P(ABi)P(A)=P(Bi)P(A|Bi)∑niP(Bi)P(A|Bi)
- 解釋:上面的推廣
貝葉斯估計
貝葉斯估計将待估計參數看作随機變量。假設觀測量為x={ xi },參數的先驗機率分布為 p(μ) 。使用貝葉斯定理,我們有 p(μ|x)=p(x|μ)p(μ)∑nip(μi)p(x|μi)
由此我們可以得出參數的後驗分布,即在目前觀測量的情況下得到的參數的機率分布。
最大後驗機率估計
上式中的分母在實際情況中往往很難計算,是以我們一般不計算出完整的參數的機率分布。這樣我們就得到了參數的後驗機率 p(μ|x)=p(x|μ)p(μ) 。取
μˆ=argmaxμip(x|μi)p(μi)
就得到了參數的最大後驗估計。可以看到,最大後驗估計與最大似然估計隻相差一個先驗機率。
一個例子
使用和前面相同的一個例子。
這個例子中的先驗是什麼?
考慮 μ 的先驗分布。我們知道一般來說男女比例是相當的。在此題中沒有提到任何具體的資訊。于是假設随機變量 μ 的均值為0.5。進而 E(μ)=αα+β=0.5→α=β 。
可以假設 μ 同樣表征了男生占人數的比例。假設班上有n個人,其中有 nm 個男生, nm 可以看成一個二項分布,它的方差為 np(1−p) 。于是 μ 的方差為 np(1−p)/n2=0.005
于是 var(μ)=αβ(α+β)2(α+β+1)=0.005 得到 α=β=24.5
(當然更好的思路是直接假設 μ 是離散分布,為了直接套用一些結論這裡就不推了)
由此得到後驗機率
p(μ|x)=p(x|μ)∗p(μ)
其中x為10個人中男生的數量。 p(x|μ) 仍為二項分布。 p(μ) 為參數的先驗機率分布, p(μ)=Beta(μ|α,β) 。
為了最大化後驗機率,我們對它的對數函數求導,其中 p(x|μ) 的對數函數的導數上面已經求過了。beta分布的對數函數導數為
ddμlog Beta(μ|α,β)=α−1μ−β−11−μ
令後驗機率對數函數的導數為零,我們求解得到
μˆ=x+α−1n′+β+α−2
其中 n′ 為走出教室的總人數。
帶入資料我們得到 μˆ=0.456 。