天天看點

共轭先驗分布

背景

貝葉斯估計

貝葉斯參數估計的思考過程可以用下面這個公式說明:

先驗分布+資料的知識=後驗分布     (∗)

共轭先驗分布的提出

  1. 當沒有任何觀察資料時,随機變量 θ 服從機率分布 P(θ)
  2. 當觀測到新的資料 X 時,有如下問題:
    • 可否根據新觀測到的資料X,更新參數 θ
    • 根據新觀測到的資料可以在多大程度上改變參數 θ : θ←θ+Δθ
    • 當重新估計 θ 的時候,如何給出其新的機率分布 p(θ|X)

根據貝葉斯法則:

p(θ|x)=P(x|θ)⋅P(θ)P(x)∝P(x|θ)⋅P(θ)

其中 P(x|θ) 表示似然函數,可以直接求得。 P(θ) 表示 θ 的先驗機率分布。若可以選擇一個合适的先驗分布 p(θ) 能使得。 後驗機率分布 P(θ|x) 與 先驗機率分布 p(θ) 有相同的形式,則能簡化後驗機率部分的求解。

定義

在貝葉斯機率理論中,如果後驗機率 P(θ|x) 和先驗機率 p(θ) 滿足同樣的分布律,那麼,先驗分布和後驗分布叫做共轭分布。同時,先驗分布叫做似然函數 p(x|θ) 的共轭先驗分布。

例子

Beta-Binomial 共轭

類比于公式 (∗) , Beta-Binomial 共轭結構可以用下面這個公式來說明:

Beta(p|α,β)+BinomCount(m1,m2)=Beta(p|α+m1,β+m2)

此處共轭的意識就是,資料符合二項分布的時候,若參數的先驗分布為Beta分布,則參數的後驗分布仍然為Beta分布。

證明如下:

P(p|m1,m2)=P(p)⋅P(m1,m2|p)P(m1,m2)=Beta(p|α,β)⋅Binomial(m1,m2|p)∫Beta(t|α,β)⋅Binomial(m1,m2|t) dt=1B(α,β)pα−1(1−p)β−1⋅Cm1mpm1(1−p)m2∫1B(α,β)tα−1(1−t)β−1⋅Cm1mtm1(1−t)m2 dt=pα+m1−1(1−p)β+m2−1∫tα+m1−1(1−t)β+m2−1 dt

計算得到的後驗分布正好是 Beta(p|α+m1,β+m2)

Dirichlet-Multinomial 共轭

若将Beta分布擴充到 N 維 Dirichlet分布,同時将 Binomial 分布擴充到 N 維 Multinomial 分布,就得到了Beta-Binomial 共轭結構。可以用下面這個公式來說明:

Dir(p⃗ |α⃗ )+MultiCount(m⃗ )=Dir(p⃗ |α⃗ +m⃗ )

此處共轭的意思就是,資料符合multinomial 分布,若參數的先驗分布為Dirichlet分布,則參數的後驗分布仍為Dirichlet分布。

Dirichlet 參數 p⃗  的估計:

由于我們有了參數的後驗機率分布為 Dir(p⃗ |α⃗ +m⃗ ) ,是以合理的方式是使用後驗機率分布的極大值點,或者參數後驗機率分布的期望值。在該文檔中,我們取平均值作為參數的估計值。

E(p⃗ )=(α1+m1∑Ni=1(αi+mi),α2+m2∑Ni=1(αi+mi),…,αN+mN∑Ni=1(αi+mi))

也就說對每個 pi ,我們可以用下式做參數估計:

p̂ i=αi+mi∑Ni=1(αi+mi)

考慮到 αi 在 Dirichlet 分布中的實體意義是事件的先驗僞計數,這個估計式子的含義是很直覺的:每個參數的估計值是其對應事件的先驗僞計數和觀察到的資料中的計數之和在整體計數中的比例。

繼續閱讀