-
貝葉斯分類器
最小化錯誤率的貝葉斯最優分類器為:
其中,
基于貝葉斯公式,可改寫為:
其中稱P(c|x) 為後驗機率,P(c) 為先驗機率,P(x|c) 為條件機率.
-
樸素貝葉斯分類器
對于已知類别,假設所有屬性互相獨立,上式可重寫為:
由于對所有類别來說相同,樸素貝葉斯分類器(naive Bayes classifier)表達式為:
于是樸素貝葉斯分類器的訓練就是,對每一類估計的先驗機率P(c) 和對每個屬性估計條件機率P(xi|c)。
其中,對于連續屬性的估計需要借助機率密度函數,假設
,其中
、
代表c類樣本在第i個屬性上取值的均值和方差,則條件機率為:
-
拉普拉斯修正
由于在分類器的表達式中會出現連乘,為了避免出現機率為零帶來的影響,需要進行拉普拉斯修正,修正公式如下:
-
半樸素貝葉斯分類器
半樸素貝葉斯分類器(semi-naive Bayes classifiers)的基本思想是:适當考慮一部分屬性間的互相依賴資訊,既不需要計算完全聯合機率,又不徹底忽略比較強的屬性依賴關系。常用的政策有“獨立依賴估計”政策(ODE),TAN政策,AODE政策等等。
-
貝葉斯網絡
當特征之間相關性比較強,而我們又要求比較精确的類機率的時候,就要借助貝葉斯網絡進行訓練,貝葉斯網是一種經典的機率圖模型,借助有向無環圖(Directed acyclic graph, DAG)來描述屬性間的依賴關系,用條件機率表(Condition Probability Table, CPT)來描述屬性的聯合機率分布。
貝葉斯網結構有效地表達了屬性間的條件獨立性,貝葉斯網中三個變量之間的典型依賴關系是同父結構、V型結構、順序結構。為了分析有向圖中變量間的條件獨立性,可使用有向分離先把有向圖轉變為道德圖,令父結點相連的過程稱為道德化。