201119西瓜書系列部落格---7、貝葉斯分類器

一、總結

一句話總結：

7.1、貝葉斯決策論；7.2、極大似然估計

7.3、樸素貝葉斯分類器

7.4、半樸素貝葉斯分類器

7.5、EM方法

1、貝葉斯公式？

$$P ( B _ { i } | A ) = \frac { P ( B _ { i } ) P ( A | B _ { i } ) } { \sum _ { j = 1 } ^ { n } P ( B _ { j } ) P ( A | B _ { j } ) }$$實際上，分母為全機率公式，分子為聯合機率。

在機器學習中，更常見的形式為：$$P ( B | A ) = \frac { P ( A | B ) P ( B ) } { P ( A ) }$$

貝葉斯公式的作用在于【将P(B|A)的估計轉化為估計P(A|B)和P(B)】

2、【7.1、貝葉斯決策論】？

貝葉斯決策論(Bayesian decision theory)是【機率架構】下實施決策的基本方法。

對于分類任務來說，假設所有的相關機率已知，貝葉斯決策論考慮如何【基于這些機率和誤判損失來選擇最優的類别标記】。

基于後驗機率P(c_i|x)可獲得将樣本x分類為c_i所産生的【期望損失】，即在樣本x上的【條件風險(conditional risk)】：$$R ( c _ { i } | x ) = \sum _ { j = 1 } ^ { N } \lambda _ { i j } P ( c _ { j } | x )$$

我們的目标就是尋找一個判定準則h來最小化所有樣本的條件風險之和，即【最小化總體風險】。這樣就産生了貝葉斯判定準則（Bayes decision rule）：為最小化總體風險，【隻需在每個樣本上選擇那個能使條件風險R(c_i|x)的最小類别标記c_i】，即：$$h ^ { * } ( x ) = \arg \min _ { c \in \gamma } R ( c | x )$$

3、【7.1、貝葉斯決策論】對于如何得到後驗機率P(c|x)，主要有兩種政策？

給定x，可通過直接模組化P(c|x)來預測c，這樣得到的是【判别式模型(discriminative models)】。

先對聯合機率分布P(x,c)模組化，然後再由此獲得P(c|x)，這樣得到的是【生成式模型(generative models)】。

4、【7.1、貝葉斯決策論】後驗機率和似然？

若給定B，則P(A|B)為【後驗機率】；此時，針對多個候選A，選擇使後驗機率最大的那一個，稱為最大後驗估計(已知B，A發生的（條件）機率)

若給定A，則P(A|B)為【似然機率】；此時，針對多個候選B，選擇使似然機率最大的那一個，稱為最大似然估計（已知A，它更像是在哪個B條件下得到的）

5、【7.2、極大似然估計】事實上，【機率模型的訓練過程就是參數估計過程】。對于參數估計，有兩種學派提供了不同的方法？

頻率學派：認為【參數是客觀存在的固定值】，可通過優化似然函數等準則來确定參數值

貝葉斯學派：認為【參數是未觀察到的随機變量】，其本身也可有分布。是以，先假定參數服從一個先驗分布，然後基于觀測到的資料來計算參數的後驗分布。

這裡采用的是【頻率學派的極大似然估計(MLE)】，這是根據資料采樣來估計機率分布的經典方法。

6、【7.3、樸素貝葉斯分類器】？

估計後驗機率P(c|x)的主要困難在于：似然機率P(x|c)是所有屬性上的聯合機率，【難以從有限的樣本中直接估計】。

為避開這個障礙，樸素貝葉斯分類器采用了“屬性條件獨立性假設”：對已知類别，假設每個屬性互相獨立。換言之，【假設每個屬性獨立地對分類結果發生影響】。

7、【7.4、半樸素貝葉斯分類器】半樸素貝葉斯分類器的基本思想？

【适當考慮一部分屬性間的互相依賴資訊】，進而既不需進行完全聯合機率計算，又不至于徹底忽略了比較強的屬性依賴關系。

8、【7.5、EM方法】？

EM（Expectation-Maximization）算法是一種常用的【估計參數隐變量】的利器，也稱為【“期望最大算法”】，是資料挖掘的十大經典算法之一。

EM算法主要應用于【訓練集樣本不完整即存在隐變量時的情形】（例如某個屬性值未知），通過其獨特的“兩步走”政策能較好地估計出隐變量的值。

9、【7.5、EM方法】 EM方法的基本思想？

若模型參數θ已知，則可【根據訓練資料推斷出最優隐變量Z的值（E步）】；反之，若Z的值已知，則可友善地【對參數θ做極大似然估計（M步）】。

10、【7.5、EM方法】 EM算法步驟？

第一步是【期望E步】：利用目前估計的參數值來計算對數似然的期望值

第二步是【最大化M步】：尋找能使E步産生的似然期望最大化的參數值

新得到的參數值被重新用到E步，【重複以上兩步直至收斂】

人工智能群：939687837

201119西瓜書系列部落格---7、貝葉斯分類器

一、總結

一句話總結：

7.1、貝葉斯決策論；7.2、極大似然估計

7.3、樸素貝葉斯分類器

7.4、半樸素貝葉斯分類器

7.5、EM方法

1、貝葉斯公式？

$$P ( B _ { i } | A ) = \frac { P ( B _ { i } ) P ( A | B _ { i } ) } { \sum _ { j = 1 } ^ { n } P ( B _ { j } ) P ( A | B _ { j } ) }$$實際上，分母為全機率公式，分子為聯合機率。

在機器學習中，更常見的形式為：$$P ( B | A ) = \frac { P ( A | B ) P ( B ) } { P ( A ) }$$

貝葉斯公式的作用在于【将P(B|A)的估計轉化為估計P(A|B)和P(B)】

2、【7.1、貝葉斯決策論】？

貝葉斯決策論(Bayesian decision theory)是【機率架構】下實施決策的基本方法。

對于分類任務來說，假設所有的相關機率已知，貝葉斯決策論考慮如何【基于這些機率和誤判損失來選擇最優的類别标記】。

基于後驗機率P(c_i|x)可獲得将樣本x分類為c_i所産生的【期望損失】，即在樣本x上的【條件風險(conditional risk)】：$$R ( c _ { i } | x ) = \sum _ { j = 1 } ^ { N } \lambda _ { i j } P ( c _ { j } | x )$$

3、【7.1、貝葉斯決策論】 對于如何得到後驗機率P(c|x)，主要有兩種政策？

給定x，可通過直接模組化P(c|x)來預測c，這樣得到的是【判别式模型(discriminative models)】。

先對聯合機率分布P(x,c)模組化，然後再由此獲得P(c|x)，這樣得到的是【生成式模型(generative models)】。

4、【7.1、貝葉斯決策論】 後驗機率和似然？

若給定B，則P(A|B)為【後驗機率】；此時，針對多個候選A，選擇使後驗機率最大的那一個，稱為最大後驗估計(已知B，A發生的（條件）機率)

若給定A，則P(A|B)為【似然機率】；此時，針對多個候選B，選擇使似然機率最大的那一個，稱為最大似然估計（已知A，它更像是在哪個B條件下得到的）

5、【7.2、極大似然估計】 事實上，【機率模型的訓練過程就是參數估計過程】。對于參數估計，有兩種學派提供了不同的方法？

頻率學派：認為【參數是客觀存在的固定值】，可通過優化似然函數等準則來确定參數值

貝葉斯學派：認為【參數是未觀察到的随機變量】，其本身也可有分布。是以，先假定參數服從一個先驗分布，然後基于觀測到的資料來計算參數的後驗分布。

這裡采用的是【頻率學派的極大似然估計(MLE)】，這是根據資料采樣來估計機率分布的經典方法。

6、【7.3、樸素貝葉斯分類器】？

估計後驗機率P(c|x)的主要困難在于：似然機率P(x|c)是所有屬性上的聯合機率，【難以從有限的樣本中直接估計】。

為避開這個障礙，樸素貝葉斯分類器采用了“屬性條件獨立性假設”：對已知類别，假設每個屬性互相獨立。換言之，【假設每個屬性獨立地對分類結果發生影響】。

7、【7.4、半樸素貝葉斯分類器】 半樸素貝葉斯分類器的基本思想？

【适當考慮一部分屬性間的互相依賴資訊】，進而既不需進行完全聯合機率計算，又不至于徹底忽略了比較強的屬性依賴關系。

8、【7.5、EM方法】？

EM（Expectation-Maximization）算法是一種常用的【估計參數隐變量】的利器，也稱為【“期望最大算法”】，是資料挖掘的十大經典算法之一。

EM算法主要應用于【訓練集樣本不完整即存在隐變量時的情形】（例如某個屬性值未知），通過其獨特的“兩步走”政策能較好地估計出隐變量的值。

9、【7.5、EM方法】 EM方法的基本思想？

若模型參數θ已知，則可【根據訓練資料推斷出最優隐變量Z的值（E步）】；反之，若Z的值已知，則可友善地【對參數θ做極大似然估計（M步）】。

10、【7.5、EM方法】 EM算法步驟？

第一步是【期望E步】：利用目前估計的參數值來計算對數似然的期望值

第二步是【最大化M步】：尋找能使E步産生的似然期望最大化的參數值

新得到的參數值被重新用到E步，【重複以上兩步直至收斂】

繼續閱讀

3、【7.1、貝葉斯決策論】對于如何得到後驗機率P(c|x)，主要有兩種政策？

4、【7.1、貝葉斯決策論】後驗機率和似然？

5、【7.2、極大似然估計】事實上，【機率模型的訓練過程就是參數估計過程】。對于參數估計，有兩種學派提供了不同的方法？

7、【7.4、半樸素貝葉斯分類器】半樸素貝葉斯分類器的基本思想？