1.極大似然估計
給定一堆資料,假如我們知道它是從某一種分布中随機取出來的,可是我們并不知道這個分布具體的參數,即“模型已知,參數未知”。例如,我們知道這個分布是正态分布,但是不知道均值和方差;或者是二項分布,但是不知道均值。 極大似然估計(MLE,Maximum Likelihood Estimation)就可以用來估計模型的參數。MLE的目标是找出一組參數,使得模型産生出觀測資料的機率最大
即:
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiIXZ05WZD9CX5RXa2Fmcn9CXwczLcVmds92czlGZvwVP9EUTDZ0aRJkSwk0LcxGbpZ2LcBDM08CXlpXazRnbvZ2LcRlMMVDT2EWNvwFdu9mZvwVPVhVZmhGShZXUYpVd1kmYr50MZV3YyI2cKJDT29GRjBjUIF2LcRHelR3LcJzLctmch1mclRXY39zM1YjM0gjM3EjNxETM3EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
MLE的具體算法由機率論的知識可以解決,此處略去。
2.最大後驗機率
MLE找的是一組能夠使似然函數最大的參數,而MAP給參數施加了一個先驗(例如在抛硬币的時候,我們認為出現正面的機率應該接近0.5)。
MAP試圖優化下式:
兩個方法之間的關系可以由貝葉斯公式導出:
當參數的後驗P(theta)服從均勻分布的時候,MLE=MAP。MAP可以看做是正則化後的MLE。
MLE(頻率學派)認為參數theta是一個未知的常量,需要從資料中估計出來。
MAP(貝葉斯學派)認為參數theta是一個随機變量,服從一個機率分布
MLE的缺點是如果資料集太小會出現過拟合。
MAP的缺點是使用不同的先驗會得到不同的結果。