生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

2023-06-06 15:27:36

思路：

之前的線性回歸都是根據特征值服從的分布猜想結果，生成算法是根據結果猜想特征值的分布。
貝葉斯公式：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

GDA高斯分類器：

模型：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
寫成表達式的形式：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
分離效果圖：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

推理：

原理：根據上述表達式的形式和最大似然原理，我們要求出這兩個高斯分布，使給出的case最大限度的符合。
寫成表達式的形式：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
原因：為什麼要求 p(y|x) 的最大似然：
- 因為我們是要求給出 X 後預測Y，是以我們要求給出x下y的最可能出現的情況下的 θ 。
- 根據貝葉斯公式：
  
  生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

GDA and Logistic 回歸：

如果 p(x|y;θ) 服從高斯分布，可以推出： p(y=1|x;θ) 服從Logistic 回歸。即：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
反之不一定成立。

樸素貝葉斯分類：

應用：

主要用于文本分類

模型1：

隻考慮單詞在詞典中出不出現，沒有考慮一個單詞出現的頻率。
将文本分詞處理，得到特征值向量（整個詞彙表）：

0表示該次在這個case中沒出現，1表示出現

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
那麼該case出現的機率：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
模型中的參數：
- 對于第 i 個特征值，有它在y=1時出現的機率， y=0 時出現的機率
- 還有 y=1 出現的機率
是以：
- ϕi|y=1=p(xi=1|y=1)
- ϕi|y=0=p(xi=1|y=0)
- ϕy=p(y=1)
joint(聯合)最大似然估計：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
解：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
就是樣本出現的頻率。如 ϕy=p(y=1) ，就是 y=1 占樣本空間的比例
根據參數我們可以寫出預測：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

Laplace smoothing

當一個單詞從未出現的時候，進行預測的時候參數可能為0

即：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
解決方法：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

模型2

考慮單詞出現的頻率
條件：
- 詞典V，長度記為： |V|
- 樣本 X = {x1,x2,.....xni} ，每個樣本的長度可以不一樣，為 ni 。
  
  其中： xi = k , 表示該特征值為字典中的第k個單詞
- 結果 y 任然為0,1
聯合最大似然函數：
- 表示：
  
  生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
- 求解：
  
  生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：
  
  分子含義：第k個單詞在 y=1 中出現的次數
  
  分母含義： y=1 的樣本的總長度（每個樣本的長度可以不一樣）
- 應用Laplace smoothing：
  
  生成算法思路：GDA高斯分類器：GDA and Logistic 回歸：樸素貝葉斯分類：

機器學習生成算法高斯分類器 logistic 樸素貝葉斯

上一篇: Kubernetes Pod啟動流程

下一篇: Scale Free Network | 無标度網絡

繼續閱讀