天天看点

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器

  • 7.1 贝叶斯决策论
  • 7.2 极大似然估计
  • 7.3 朴素贝叶斯分类器
    • 拉普拉斯修正
  • 7.4 半朴素贝叶斯分类器
  • 7.5 贝叶斯网
    • 结构
    • 学习
    • 推断
  • 7.6 EM算法
最近白天学车晚上看书 我瑞了 (概率论还没看啊啊啊啊)

7.1 贝叶斯决策论

对于分类任务,贝叶斯决策论考虑基于相关概率和误判损失来选择最优的类别标记。

期望损失(条件风险):

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

λ i j \lambda _{ij} λij​是将cj的样本记为ci的损失。

目标是要最小化总体风险,那么只要对每个样本最小化条件风险 R ( c ∣ x ) R\left (c\mid \boldsymbol{x}\right ) R(c∣x)即可。

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

当目标为最小化分类错误率, λ i j \lambda _{ij} λij​可为 :当相同时为0,不同为1

此时条件风险变为 R ( c ∣ x ) = 1 − P ( c ∣ x ) R\left (c\mid \boldsymbol{x}\right )=1-P\left (c\mid \boldsymbol{x}\right ) R(c∣x)=1−P(c∣x) 即目标为最大化后验概率P。

为估计后验概率:

  1. 建模 P ( c ∣ x ) P\left (c\mid \boldsymbol{x}\right ) P(c∣x) -------判别式模型:决策树、BP、支持向量机等
  2. 对联合概率 P ( c , x ) P\left (c,\boldsymbol{x}\right ) P(c,x) 建模-------生成式模型:考虑
    周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法
    P(x)可以省略,因为我们比较的时候 P ( x ) P(\boldsymbol x) P(x)一定是相同的,所以我们就是用历史数据计算出 P ( c ) P(c) P(c)——用各类样本出现频率来估计和 P ( x ∣ c ) P(\boldsymbol x|c) P(x∣c)——下文方法。

7.2 极大似然估计

可以使条件概率估计变得简单,但严重依赖假设的概率分布是否符合潜在真实数据分布。(玄学可能失败)

估计类条件概率的基本策略:先假定其有某种确定的概率分布再用样本估计其分布的参数。根据频率主义,参数虽未知,但客观存在。极大似然估计是根据数据采样来进行估计:去寻找能最大化似然的参数值 θ ^ c \mathbf{\hat{\theta }_{c}} θ^c​ ——找到一个使数据出现的可能性的最大的值

直接似然和对数似然:

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法
周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

例子 : 看不懂啊啊啊啊啊

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

7.3 朴素贝叶斯分类器

条件概率需要所有属性的联合概率,比较难获得,所以朴素贝叶斯分类器采用“属性条件独立性假设”——每个属性独立得对分类结果产生影响

基于此,d为属性数目,xi为属性取值

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

同样无需考虑 P ( x ) P(x) P(x),将上式最大化 即为朴素贝叶斯分类器的表达式

需求 P ( c ) P(c) P(c)和 P ( x i ∣ c ) P\left ( x_{i}\mid c \right ) P(xi​∣c)

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

拉普拉斯修正

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

7.4 半朴素贝叶斯分类器

对属性条件独立性假设进行一定程度的放松,适当考虑一部分属性间的相互依赖信息。

常用独依赖估计:每个属性在类别之外最多依赖一个其他属性

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

若对 x i x_{i} xi​,其父属性 p x i px_{i} pxi​已知,则可估计 P ( x i ∣ c , p a i ) P(x_{i}\mid c,pa_{i}) P(xi​∣c,pai​)

确定父属性的方法:

  1. 周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法
    超父:所有的属性依赖于同一个属性
  2. 周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法
    树形结构:
    周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法
  3. AODE:将有足够训练数据支撑的SPODE集成起来

7.5 贝叶斯网

有向图来刻画属性依赖关系,用属性概率表来描述属性联合概率分布
周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

结构

联合概率:

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

依赖关系:

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

可以进行有向分离:找出v型结构,在两个父节点之间加上无向边。把有向边改成无向边。以此形成的道德图可以看出变量间的独立性

学习

统计训练样本,估计每个结点的条件概率。

需要用到评分函数来搜索结构最恰当的贝叶斯网。

推断

贝叶斯网训练好后,可以通过一些属性变量来推测其他属性变量的取值。

由于直接精确推断是NP问题,所以要近视推断。常用吉布斯采样。

周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

7.6 EM算法

在存在未观测变量的情形下,对模型参数进行估计。
周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法

循环E和M:利用估计的参数值计算对数似然的期望值,寻找似然期望最大化的参数值 直至收敛到局部最优解。

呜呜呜呜呜呜之后再重新仔细看看这一章⑧呜呜呜

继续阅读