天天看点

机器学习第二次作业

第一章 模式识别基本概念

模式识别的常见运用领域

计算机视觉领域:字符识别、交通及标志识别、动作识别

人机交互领域:语音识别

医学领域:模式识别

机器人领域:目标抓取

模式识别的形式

模式识别分为“分类”和“回归”两种形式。模式是被本质上也是一种推理过程

模型的组成:狭义:特征提取+回归器,广义:特征提取+回归器+判别函数

分类器:回归器+判别函数

机器学习第二次作业

特征向量的相关性

由于每个特征向量代表一个模式,所以度量特征向量两两之间的相关性是识别模式之间是否相似的基础

机器学习方式

监督式学习、无监督式学习、半监督式学习、强化学习

机器学习第二次作业

评估方法

留出法:将数据集随机分为训练集和测试集

留一验证:每次只取数据集中的一个样本做测试集,剩余的做训练集

K折交叉验证:将数据集分割成K个子集

评估指标

准确度:将阳性和阴性综合起来度量识别正确的程度。

精度:预测为阳性样本的准确程度。在信息检索领域也称作查准率。 P=TP/(TP+FP)

召回率:也称作敏感度,全部阳性样本中被预测为阳性的比例。在信息检索领域也称作查全率。R=TP/(TP+FN)

机器学习第二次作业

精度高、同时召回率也高,说明模型性能越好。

常用曲线

PR曲线:横轴为召回率,纵轴为精度。曲线越往上凸,则性能越好。对各类别之间样本分布比例敏感

ROC曲线:横轴为FPR,纵轴为TPR。曲线越往左上凸,则性能越好。对各类别之间样本分布比例不敏感

机器学习第二次作业

第二章 基于距离的分类器

基本概念

基于距离决策:把测试样本到每个类的距离作为决策模型,将测试样本判定为距离最近的类

特征白化

将原始特征映射到一个新的特征空间,使得在新空间中特征的协方差矩阵为单位矩阵,从而去除特征变化的不同及特征之间的相关性。

步骤:

1)解耦:去除特征之间的相关性

2)白化:对特征进行尺度变换,使每维特征的方差相等

总结-模式识别常见的分类器

MED分类器

基于欧氏距离:

相当于高维空间内向量说表示的点到点之间的距离。

由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。

优点:简单,应用广泛

缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。

MICD分类器

基于马氏距离:

适用场合:

1)度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度

2)度量X与某一类的均值向量的差异程度,判别样本的归属。此时,Y为类均值向量.

优点:

1)独立于分量量纲

2)排除了样本之间的相关性影响。

缺点:不同的特征不能差别对待,可能夸大弱特征。

MAP分类器

基于后验概率:

选择后验概率最大的类作为判别结果,即最小化概率误差

贝叶斯分类器

基于MAP分类器的基础上,引入决策风险

优点:接受大量数据训练和查询时所具备的高速度,支持增量式训练;对分类器实际学习的解释相对简单

缺点:无法处理基于特征组合所产生的变化结果

第三章 贝叶斯决策与学习

基于距离决策问题

基于距离的决策仅考虑每个类别各自观测到的训练样本的分布情况,例如均值和协方差。没有考虑类的分布等先验知识,例如类别之间样本数量的比例,类别之间的相互关系。

贝叶斯规则-已知先验概率和观测概率

公式:P(B|A)=P(A|B)P(B)/P(A)

P(B):先验概率

P(A|B):观测似然概率/条件概率

P(A):边缘概率

机器学习第二次作业

将测试样本决策分类给后验概率最大的那个类

概率误差等于未选择的类所对应的后验概率。

贝叶斯决策

决策的期望损失:所有样本的决策损失之和。

决策目标:让最小化期望损失

如何实现期望损失最小化:对每个测试样本选择风险最小的类。

为了避免出现错误决策,分类器可以选择拒绝

如何拒绝:引入阈值τ

当τ=1,所有样本的任何决策都会被拒绝

当τ<1/K,所有样本的决策不会被拒绝,K是类别的个数

机器学习第二次作业

最大似然的估计偏差

如果一个参数的估计量的数学期望是该参数的真值,则该估计量称作无偏估计。

机器学习第二次作业

KNN估计

机器学习第二次作业

K近邻估计:给定x,找到其对应的区域R使其包含k个训练样本,以此计算p(x)。

针对任意一个模式x,需要以其为中心,在训练样本中寻找k个相邻点来估计该模式的概率,同时,容易受噪声影响。

第四章 线性判据与回归

线性判据基本概念

给定训练样本{xn},直接在输入空间内学习其概率密度函数p(x)

判别模型

给定训练样本{xn},直接在输入空间内估计后验概率

线性判据

如果判别模型f(x)是线性函数,则f(x)为线性判据优势,计算量少,适用于训练样本较少的情况下

Fisher线性判据

找到一个最合适的投影轴,使两类样本在该轴上投影的重叠部分最小,从而使分类效果达到最佳。

类间样本的差异程度:用两类样本分布的均值之差度量

类间样本的离散程度:用每类样本分布的协方差矩阵表征

机器学习第二次作业

支持向量机

给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大

支持向量:决策边界记作∏,平行∏且分别通过x+和x-的两个超平面记作∏+和∏-,称为间隔边界。

机器学习第二次作业