一文搞懂極大似然估計

極大似然估計，通俗了解來說，就是利用已知的樣本結果資訊，反推最具有可能（最大機率）導緻這些樣本結果出現的模型參數值！

換句話說，極大似然估計提供了一種給定觀察資料來評估模型參數的方法，即：“模型已定，參數未知”。

可能有小夥伴就要說了，還是有點抽象呀。我們這樣想，一當模型滿足某個分布，它的參數值我通過極大似然估計法求出來的話。比如正态分布中公式如下：

一文搞懂極大似然估計

如果我通過極大似然估計，得到模型中參數

一文搞懂極大似然估計

和

一文搞懂極大似然估計

的值，那麼這個模型的均值和方差以及其它所有的資訊我們是不是就知道了呢。确實是這樣的。

極大似然估計中采樣需滿足一個重要的假設，就是所有的采樣都是獨立同分布的。

下面我通過倆個例子來幫助了解一下最大似然估計

但是首先看一下似然函數

一文搞懂極大似然估計

的了解：來自下面部落格：

詳解最大似然估計（MLE）、最大後驗機率估計（MAP），以及貝葉斯公式的了解 - CSDN部落格blog.csdn.net

對于這個函數：

一文搞懂極大似然估計

輸入有兩個：x表示某一個具體的資料；

一文搞懂極大似然估計

表示模型的參數

如果

一文搞懂極大似然估計

是已知确定的，

一文搞懂極大似然估計

是變量，這個函數叫做機率函數(probability function)，它描述對于不同的樣本點

一文搞懂極大似然估計

，其出現機率是多少。

如果

一文搞懂極大似然估計

是已知确定的，

一文搞懂極大似然估計

是變量，這個函數叫做似然函數(likelihood function), 它描述對于不同的模型參數，出現

一文搞懂極大似然估計

這個樣本點的機率是多少。

這有點像“一菜兩吃”的意思。其實這樣的形式我們以前也不是沒遇到過。例如，

一文搞懂極大似然估計

, 即x的y次方。如果x是已知确定的(例如x=2)，這就是

一文搞懂極大似然估計

, 這是指數函數。如果y是已知确定的(例如y=2)，這就是

一文搞懂極大似然估計

，這是二次函數。同一個數學形式，從不同的變量角度觀察，可以有不同的名字。

這麼說應該清楚了吧？如果還沒講清楚，别急，下文會有具體例子。

現在真要先講講MLE了。。

例子一

别人部落格的一個例子。

假如有一個罐子，裡面有黑白兩種顔色的球，數目多少不知，兩種顔色的比例也不知。我們想知道罐中白球和黑球的比例，但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來，記錄球的顔色，然後把拿出來的球再放回罐中。這個過程可以重複，我們可以用記錄的球的顔色來估計罐中黑白球的比例。假如在前面的一百次重複記錄中，有七十次是白球，請問罐中白球所占的比例最有可能是多少？

很多人馬上就有答案了：70%。而其後的理論支撐是什麼呢？

我們假設罐中白球的比例是p，那麼黑球的比例就是1-p。因為每抽一個球出來，在記錄顔色之後，我們把抽出的球放回了罐中并搖勻，是以每次抽出來的球的顔色服從同一獨立分布。

這裡我們把一次抽出來球的顔色稱為一次抽樣。題目中在一百次抽樣中，七十次是白球的,三十次為黑球事件的機率是P(樣本結果|Model)。

如果第一次抽象的結果記為x1,第二次抽樣的結果記為x2....那麼樣本結果為(x1,x2.....,x100)。這樣，我們可以得到如下表達式：

P(樣本結果|Model)

　　= P(x1,x2,…,x100|Model)

　　= P(x1|Mel)P(x2|M)…P(x100|M)

　　= p^70(1-p)^30.

好的，我們已經有了觀察樣本結果出現的機率表達式了。那麼我們要求的模型的參數，也就是求的式中的p。

那麼我們怎麼來求這個p呢？

不同的p，直接導緻P（樣本結果|Model）的不同。

好的，我們的p實際上是有無數多種分布的。如下：

一文搞懂極大似然估計

那麼求出 p^70(1-p)^30為 7.8 * 10^(-31)

p的分布也可以是如下：

一文搞懂極大似然估計

那麼也可以求出p^70(1-p)^30為2.95* 10^(-27)

那麼問題來了，既然有無數種分布可以選擇，極大似然估計應該按照什麼原則去選取這個分布呢？

答：采取的方法是讓這個樣本結果出現的可能性最大，也就是使得p^70(1-p)^30值最大，那麼我們就可以看成是p的方程，求導即可！

那麼既然事情已經發生了，為什麼不讓這個出現的結果的可能性最大呢？這也就是最大似然估計的核心。

我們想辦法讓觀察樣本出現的機率最大，轉換為數學問題就是使得：

p^70(1-p)^30最大，這太簡單了，未知數隻有一個p，我們令其導數為0，即可求出p為70%，與我們一開始認為的70%是一緻的。其中蘊含着我們的數學思想在裡面。

例子二

假設我們要統計全國人民的年均收入，首先假設這個收入服從服從正态分布，但是該分布的均值與方差未知。我們沒有人力與物力去統計全國每個人的收入。我們國家有10幾億人口呢？那麼豈不是沒有辦法了？

不不不，有了極大似然估計之後，我們可以采用嘛！我們比如選取一個城市，或者一個鄉鎮的人口收入，作為我們的觀察樣本結果。然後通過最大似然估計來擷取上述假設中的正态分布的參數。

有了參數的結果後，我們就可以知道該正态分布的期望和方差了。也就是我們通過了一個小樣本的采樣，反過來知道了全國人民年收入的一系列重要的數學名額量！

那麼我們就知道了極大似然估計的核心關鍵就是對于一些情況，樣本太多，無法得出分布的參數值，可以采樣小樣本後，利用極大似然估計擷取假設中分布的參數值。

希望對您了解有幫助~

參考：

從最大似然到EM算法淺解 - zouxy09的專欄 - 部落格頻道 - CSDN.NET

最大似然估計的學習 - growoldwith_you的部落格 - 部落格頻道 - CSDN.NET

一文搞懂極大似然估計 - 知乎

一文搞懂極大似然估計

例子一

例子二

繼續閱讀

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

各種二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

一道某高大上網際網路公司的筆試題分享

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告