假如你在做一個抛硬币實驗。硬币朝上的機率是 p,但是你不知道具體是多少,你想通過實驗确定 p。
你做了 A + B 次實驗,抛出 A 次正面,B 次反面。請問 p 是多少?
什麼?你說
?
太不專業了吧,我們是統計科學家,什麼事情都要看個機率。
最符合我們的實驗結果,固然可能性最大,但是我們也不能忽略其他取值的可能性。
比如說吧,如果說
,那我們能不能扔出 A 次正面,B 次反面?可能啊,而且可能性很大,如果
,那我們的實驗結果也幾乎完全符合預期。再比如說,就算
,那我們扔出 10 次正面,0 次反面,有沒有可能?好像也有可能,隻是可能性很小。
看到沒有,這個 p 始終有可能是 0 到 1 當中的任何一個值。而當我們觀測到 A 次正面,B 次反面之後,能做的隻是給它一個機率分布,就像上面說的,
的可能性很大,而
的可能性很小。
那麼,這個機率分布到底是什麼呢?有的同學可能知道了,就是貝塔分布。
但是先别急着看結論。這個問題其實并不難,我們先來自己動手算一下,實踐出真知:
我們在對這個硬币一無所知的情況下,認為
是 0 到 1 的任何值都是等可能的。是以,在觀測到一些實驗結果之後,我們可以按照極大似然估計的思想 —— 參數
下我的實驗結果的可能性,就是參數
的靠譜程度——得到參數
的分布。
假設這個硬币出正面的機率是
,我們一共做了 A + B 次實驗,那麼我們得到 A 次正面的機率可以簡單地算出來,從 A + B 次實驗裡面有 A 個正面的情況數量是
,每個情況的出現機率是
。綜合起來,A 次正面的機率是:
這個機率
就是所謂“參數
下我的實驗結果的可能性”,同時也是
的靠譜程度,也就是似然。
那麼我們把
的靠譜程度做成函數,其實就是把上面等号左邊的形式改一下:
然後我們把這個靠譜程度的函數歸一化一下,讓它的積分為 1,變成一個機率分布。直覺上看,要把一個正函數變成一個機率分布,就是要讓函數的圖像面積為 1. 是以做法就是給這個函數除以它的圖像面積,也就是這個函數的積分。于是就有:
你如果知道 Beta 分布的公式的話,相信你已經看出來怎麼回事了。我們得到的,其實就是 Beta 分布的機率密度函數。下面我把維基百科的 Beta 分布密度函數粘貼過來,同學們可以對比一下:
Beta 分布的 x,就是我們要估計的
,也就是這枚硬币正面朝上的機率。
就是我們的 A + 1,
就是我們的 B + 1,也就是代表我們已經觀測到的正面/背面朝上的次數。至于為什麼差個 1,可能隻是為了
與
函數的簡潔。
那麼我們總結一下,什麼叫 Beta 分布?
所謂的以
為參數的 Beta 分布
,其實描述的就是我們在做抛硬币實驗的過程中,我們目前如果已經觀測到
次正面,
次反面,那麼此時硬币正面朝上的真實機率的可能性分布。