天天看點

201119西瓜書系列部落格---7、貝葉斯分類器

201119西瓜書系列部落格---7、貝葉斯分類器

一、總結

一句話總結:

7.1、貝葉斯決策論;7.2、極大似然估計
7.3、樸素貝葉斯分類器
7.4、半樸素貝葉斯分類器
7.5、EM方法

1、貝葉斯公式?

$$P ( B _ { i } | A ) = \frac { P ( B _ { i } ) P ( A | B _ { i } ) } { \sum _ { j = 1 } ^ { n } P ( B _ { j } ) P ( A | B _ { j } ) }$$實際上,分母為全機率公式,分子為聯合機率。
在機器學習中,更常見的形式為:$$P ( B | A ) = \frac { P ( A | B ) P ( B ) } { P ( A ) }$$
貝葉斯公式的作用在于【将P(B|A)的估計轉化為估計P(A|B)和P(B)】

2、【7.1、貝葉斯決策論】?

貝葉斯決策論(Bayesian decision theory)是【機率架構】下實施決策的基本方法。
對于分類任務來說,假設所有的相關機率已知,貝葉斯決策論考慮如何【基于這些機率和誤判損失來選擇最優的類别标記】。
基于後驗機率P(c_i|x)可獲得将樣本x分類為c_i所産生的【期望損失】,即在樣本x上的【條件風險(conditional risk)】:$$R ( c _ { i } | x ) = \sum _ { j = 1 } ^ { N } \lambda _ { i j } P ( c _ { j } | x )$$
我們的目标就是尋找一個判定準則h來最小化所有樣本的條件風險之和,即【最小化總體風險】。這樣就産生了貝葉斯判定準則(Bayes decision rule):為最小化總體風險,【隻需在每個樣本上選擇那個能使條件風險R(c_i|x)的最小類别标記c_i】,即:$$h ^ { * } ( x ) = \arg \min _ { c \in \gamma } R ( c | x )$$

3、【7.1、貝葉斯決策論】 對于如何得到後驗機率P(c|x),主要有兩種政策?

給定x,可通過直接模組化P(c|x)來預測c,這樣得到的是【判别式模型(discriminative models)】。
先對聯合機率分布P(x,c)模組化,然後再由此獲得P(c|x),這樣得到的是【生成式模型(generative models)】。

4、【7.1、貝葉斯決策論】 後驗機率和似然?

若給定B,則P(A|B)為【後驗機率】;此時,針對多個候選A,選擇使後驗機率最大的那一個,稱為最大後驗估計(已知B,A發生的(條件)機率)
若給定A,則P(A|B)為【似然機率】;此時,針對多個候選B,選擇使似然機率最大的那一個,稱為最大似然估計(已知A,它更像是在哪個B條件下得到的)

5、【7.2、極大似然估計】 事實上,【機率模型的訓練過程就是參數估計過程】。對于參數估計,有兩種學派提供了不同的方法?

頻率學派:認為【參數是客觀存在的固定值】,可通過優化似然函數等準則來确定參數值
貝葉斯學派:認為【參數是未觀察到的随機變量】,其本身也可有分布。是以,先假定參數服從一個先驗分布,然後基于觀測到的資料來計算參數的後驗分布。
這裡采用的是【頻率學派的極大似然估計(MLE)】,這是根據資料采樣來估計機率分布的經典方法。

6、【7.3、樸素貝葉斯分類器】?

估計後驗機率P(c|x)的主要困難在于:似然機率P(x|c)是所有屬性上的聯合機率,【難以從有限的樣本中直接估計】。
為避開這個障礙,樸素貝葉斯分類器采用了“屬性條件獨立性假設”:對已知類别,假設每個屬性互相獨立。換言之,【假設每個屬性獨立地對分類結果發生影響】。

7、【7.4、半樸素貝葉斯分類器】 半樸素貝葉斯分類器的基本思想?

【适當考慮一部分屬性間的互相依賴資訊】,進而既不需進行完全聯合機率計算,又不至于徹底忽略了比較強的屬性依賴關系。

8、【7.5、EM方法】?

EM(Expectation-Maximization)算法是一種常用的【估計參數隐變量】的利器,也稱為【“期望最大算法”】,是資料挖掘的十大經典算法之一。
EM算法主要應用于【訓練集樣本不完整即存在隐變量時的情形】(例如某個屬性值未知),通過其獨特的“兩步走”政策能較好地估計出隐變量的值。

9、【7.5、EM方法】 EM方法的基本思想?

若模型參數θ已知,則可【根據訓練資料推斷出最優隐變量Z的值(E步)】;反之,若Z的值已知,則可友善地【對參數θ做極大似然估計(M步)】。

10、【7.5、EM方法】 EM算法步驟?

第一步是【期望E步】:利用目前估計的參數值來計算對數似然的期望值
第二步是【最大化M步】:尋找能使E步産生的似然期望最大化的參數值
新得到的參數值被重新用到E步,【重複以上兩步直至收斂】

人工智能群:939687837

繼續閱讀