形象了解貝葉斯定理

1. 什麼是條件機率？

根據***，條件機率是一個事件機率依賴于另一個事件（已然發生）的度量，假設（通過假設、推定、斷言或證據）另一個事件發生的機率，表示為P（A / B）。

現在讓我們嘗試通過一種新的方法在視覺上解釋它。

條件機率圖

讓我們假設我們在START的時間線内開始觀察。P（A）表示在我們開始觀察時間線之後發生事件A的機率。在A之後還有可能發生另一個事件B，并且其幾率由P（B | A）表示。

由于兩個事件都是連續發生的，是以整個時間線出現的機率（即A和B都發生，B發生在A之後）是

P（A）·P（B | A）

由于我們正在考慮A和B都發生的機率，它也可以解釋為P（A∩B）

交叉規則（A∩B）

P（A∩B）= P（A）·P（B | A）

這裡P（B | A）被稱為條件機率，是以可以簡化為

P（B | A）= P（A∩B）/ P（A），假設P（A）≠0

請注意，上述情況的前提是，事件序列發生且彼此互相依賴。也有可能A不影響B，如果是，則這些事件彼此獨立并稱為獨立事件。

獨立事件

在獨立事件的情況下，A發生的幾率不會影響B發生的幾率。

P（B | A）= P（B）

2. 總機率定律

總機率定律将計算分為不同的部分。它用于計算事件的機率，該事件與前一事件之前發生的兩個或多個事件相關。

太抽象了？讓我們嘗試一種視覺方法

總機率圖

設B是可以在任何" n"個事件（A1，A2，A3，...... ...... An）之後發生的事件。如上所定義P（Ai∩B）= P（Ai）P（B | Ai）i∈[1，n]

事件A1，A2，A3，...... A是互相排斥的，不能同時發生，我們可以通過A1或A2或A3或......或An到達B. 是以，用和的表達如下：

P（B）= P（A1∩B）+ P（A2∩B）+ P（A3∩B）+ ...... + P（An∩B）

進而：

P（B）= P（A1）·P（B | A1）+ P（A2）·P（B | A2）+ ...... + P（An）·P（B | An）

上述表達式稱為總機率規則或總機率定律。

3. 貝葉斯定理

貝葉斯定理是一種基于某些機率的先驗知識來預測起源或來源的方法

我們已經知道P（B | A）= P（A∩B）/ P（A），假設兩個相關事件的P（A）≠0。有沒有想過P（A | B）=？，從語義上說它沒有任何意義，因為B發生在A之後，時間線無法逆轉（即我們不能從B向上行進到START）

數學上我們根據條件機率知道

P（A | B）= P（B∩A）/ P（B），假設P（B）≠0

P（A | B）= P（A∩B）/ P（B），P（A∩B）= P（B∩A）

我們知道

P（A∩B）= P（B | A）·P（A）

代入：

P（A | B）= P（B | A）·P（A）/ P（B）

這是貝葉斯定理的最簡單形式。

現在，假設B依賴于它之前發生的多個事件。将Total Probability Rule應用于上面的表達式，我們得到

P（Ai | B）= P（B | Ai）·P（Ai）/（P（A1）·P（B | A1）+ ...... + P（An）·P（B | An））

這是我們通常在各種實際應用中使用的貝葉斯定理的形式。

4. 貝葉斯定理的應用

由于其預測性，我們使用貝葉斯定理推導出樸素貝葉斯，這是一種流行的機器學習分類器

如上所述，貝葉斯定理基于可能與事件相關的因素的先驗知識來定義事件的機率。

現在，基本上對于資料點xi，我們必須預測目前輸出Y所屬的類。假設輸出的總類數為\'j\'。然後， P（y = c1 | x = xi） - - >告訴我們，對于給定的輸入xi，y是c1的機率是多少。 P（y = c2 | x = xi） - - >告訴我們，對于給定的輸入xi，y是c2的機率是多少。

在所有這些機率計算中，y屬于具有最大機率的特定類。

我們将使用貝葉斯定理進行這些機率計算。

這給出了輸出屬于資料點（xi）的目前值的第j類的機率。因為對于所有類1,2，...，j，分母将具有相同的值，是以我們可以在進行比較時忽略它。是以，我們獲得了計算機率的公式。

為什麼它被稱為樸素？？

我們之是以稱之為樸素，是因為我們做了一個簡單的假設，即類中特定特征的存在與任何其他特征的存在無關，這意味着每個特征彼此獨立。

機率P（y = cj）的估計可以直接從訓練資料點的數量來計算。假設有100個訓練點和3個輸出類，10個屬于c1類，40個屬于C2類，其餘50個屬于C3類。類機率的估計值将是：

P（y = C1）= 10/100 = 0.1

P（y = C2）= 40/100 = 0.4

P（y = C3）= 50/100 = 0.5

為了對P（x = xi | y = cj）進行機率估計，樸素貝葉斯分類算法假設所有特征都是獨立的。是以，我們可以通過單獨乘以為所有這些特征獲得的機率（假設特征是獨立的）來計算這個，用于第j類的輸出。

P（x = xi | y = cj）= P（x = xi（1）| y = cj）P（x = xi（2）| y = cj）.... P（X = XI（N）| Y = CJ）

這裡，xi（1）表示第i個資料點的第1特征的值，x = xi（n）表示第i個資料點的第n個特征的值。

在接受了樸素假設之後，我們可以很容易地計算出單個特征機率，然後通過簡單地乘以結果來計算最終機率P\'。

使用上面的公式，我們可以計算輸出y對于給定的第i個資料點屬于第j個類的機率。

這是貝葉斯定理在實際應用中的主要應用。