模式识别
模式识别定义
模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值
根据任务,模式识别可以划分为“分类”和“回归”两种形式,其中分类的输出量是离散的,回归的输出量是连续的。
模式识别数学表达
模式识别可以看做一种函数的映射,将待识别模式x从输入空间映射到输出空间
机器学习
模型是使用机器学习技术得到的。模型的参数和结构y=f(x|θ)
机器学习有以下几种:
有监督式学习:训练样本给定真值
无监督式学习:训练样本不给真值,用于聚类、图像分割等
半监督式学习:仅给定一部分训练样本的真值,用于网络流数据等
强化学习:真值滞后反馈,适用于需要累积多次决策才知道结果好坏的任务
评估方法与性能指标
评估方法:
留出法:直接将数据集D DD划分为两个互斥的部分,其中一部分作为训练集S SS,另一部分用作测试集T TT。
k折交叉验证:将数据集分割成k个子集,从其中选取单个子集作为测试集,其他k-1个子集作为训练集。
性能指标:
准确度:A=TP+TNTP+TN+FP+FN
查准率:S=TNTN+FP
召回率:R=TPTP+FN
PR曲线:召回率-精度
ROC曲线:FPR-TPR
AUC:曲线下方面积
分类器
MED分类器
基于距离的决策:把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类。
判别公式y∈C1,ifd(y,C1)<d(y,C2)
MICD分类器
利用马氏距离作为度量标准,最小类内距离分类器,存在均值一样,会选择方差较大的类
判别公式x∈C1,ifdM(x,C1)<dM(x,C2)
缺陷:MICD分类器会选择方差较大的类。
MAP分类器
最大后验概率(MAP)分类器:将测试样本决策分类给后验概率最大的那个类。
决策边界:对于二分类p(x|C1)p(C1)−p(x|C2)p(C2)=0
决策误差
为未选择的类所对应的后验概率
p(error|x)={p(C2|x)if decide x∈C1p(C1|x)if decide x∈C2
第三章介绍了最大后验概率分类器map分类器,根据贝叶斯公式得到决策边界p(x|C1)p(C1)>p(x|C2)p(C2)。在map分类器的基础上加上决策风险因素,得到贝叶斯分类器。在贝叶斯决策中,求取后验概率需要事先知道每个类的先验概率和观测似然概率。这两类概率分布需要通过机器学习算法得到,常用的参数估计方法有最大似然估计和贝叶斯估计。第三章最后介绍了常用的无参数估计技术:k近邻估计,直方图估计,核密度估计。
总体来说,除了一些带矩阵的公式的推导过程,其余的大部分内容我都能理解,现在我也在回顾以前学过的线性代数的知识,以及学习一些新的线代知识。