思路:
- 之前的線性回歸都是根據特征值服從的分布猜想結果,生成算法是根據結果猜想特征值的分布。
- 貝葉斯公式:
GDA高斯分類器:
模型:
- 寫成表達式的形式:
- 分離效果圖:
推理:
- 原理:根據上述表達式的形式和最大似然原理,我們要求出這兩個高斯分布,使給出的case最大限度的符合。
- 寫成表達式的形式: 原因:為什麼要求 p(y|x) 的最大似然:
- 因為我們是要求給出 X 後預測Y,是以我們要求給出x下y的最可能出現的情況下的 θ 。
- 根據貝葉斯公式:
GDA and Logistic 回歸:
- 如果 p(x|y;θ) 服從高斯分布,可以推出: p(y=1|x;θ) 服從Logistic 回歸。即:
- 反之不一定成立。
樸素貝葉斯分類:
應用:
- 主要用于文本分類
模型1:
- 隻考慮單詞在詞典中出不出現,沒有考慮一個單詞出現的頻率。
-
将文本分詞處理,得到特征值向量(整個詞彙表):
0表示該次在這個case中沒出現,1表示出現
- 那麼該case出現的機率:
- 模型中的參數:
- 對于第 i 個特征值,有它在y=1時出現的機率, y=0 時出現的機率
- 還有 y=1 出現的機率
- ϕi|y=1=p(xi=1|y=1)
- ϕi|y=0=p(xi=1|y=0)
- ϕy=p(y=1)
- joint(聯合)最大似然估計: 解: 就是樣本出現的頻率。如 ϕy=p(y=1) ,就是 y=1 占樣本空間的比例
- 根據參數我們可以寫出預測:
Laplace smoothing
-
當一個單詞從未出現的時候,進行預測的時候參數可能為0
即:
- 解決方法:
模型2
- 考慮單詞出現的頻率
- 條件:
- 詞典V,長度記為: |V|
-
樣本 X = {x1,x2,.....xni} , 每個樣本的長度可以不一樣,為 ni 。
其中: xi = k , 表示該特征值為字典中的第k個單詞
- 結果 y 任然為0,1
- 聯合最大似然函數:
- 表示:
- 求解:
分子含義:第k個單詞在 y=1 中出現的次數
分母含義: y=1 的樣本的總長度(每個樣本的長度可以不一樣)
- 應用Laplace smoothing: