统计学习
统计学习是基于数据构建模型,并运用模型对数据进行预测和分析的一门学科。
统计学习对数据的基本假设是同类数据具有一定的统计规律性,即可以用概率统计方法来学习。
监督学习的假设是训练数据和测试数据是依联合概率分布P(X,Y)独立同分布产生的,独立同分布就是比如随机变量(X1,Y1)与(X2,Y2)具有相同的概率分布,并且取值相互独立。比如实验条件保持不变,一系列的抛硬币的正反面结果就是独立同分布的。
统计学习的步骤:
1. 得到有限的训练数据集合;
2. 确定假设空间;
3. 确定模型选择的准则,也就是策略;
4. 实现求解模型的算法;
5. 通过学习方法选择最优模型;
6. 利用模型对新数据进行预测与分析。
一 统计学习三要素
方法=模型+策略+算法
1. 模型
统计学习首先要考虑学习什么样的模型。
模型是输入空间(特征空间)到输出空间的映射,映射的集合就是假设空间。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示。
比如假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。
2. 策略
策略是选择最优模型的准则,也即判断模型预测好坏的准则。
损失函数度量模型一次预测错误的程度。常用的损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(对数似然损失函数)。
损失函数越小,模型就越好。
风险函数是损失函数的期望R(f)={L(x,f(x))P(x,y)dxdy。学习的目标就是选择期望风险最小的模型。
风险函数分为经验风险和结构风险。训练数据集上的平均损失成为经验风险,根据大数定律,当样本数趋于无穷时,经验风险趋于期望风险,按照经验风险最小化最有模型就是求解最优化问题:min1/N(sum(L(yi,f(xi)))。当样本容量很小时,为了防止过拟合,结构风险在经验风险上加了表示模型复杂度的正则化项。按照结构风险最小化最有模型就是求解最优化问题:min1/N(sum(L(yi,f(xi))+aJ(f))。
当模型是条件概率分布,损失函数是对数损失函数时,检验风险最小化就等价于极大似然估计。证明可参考http://blog.csdn.net/xmu_jupiter/article/details/44965391
极大似然估计是模型一定,参数未知,选择参数的准则就是使得到现有观测的概率最大。具体解释可参考http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html
当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。证明可参考http://blog.csdn.net/xmu_jupiter/article/details/44996261
最大后验估计与最大似然的不同之处就是融入了要估计量的先验分布在其中,可以看做正则化的最大似然估计。具体解释可参考http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html
其差别可参考http://ask.julyedu.com/question/150?rf=false&item_id=810#!answer_810
3. 算法
选定了学习策略,统计学习问题可归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
二 模型评估与模型选择
如果假设空间中存在真模型,我们希望我们得到的模型逼近真模型。如果一味的追求对训练数据的预测能力,所选模型的复杂度往往会很高,太对未知数据的预测能力就会很弱,也即泛化能力很弱,这种现象称为过拟合。防止过拟合的两种常用方法:正则化与交叉验证。
1.正则化
正则化是结构风险最小化的实现。正则化可以取不同的形式,比如可以是参数向量的L2范数。
正则化符合奥卡姆剃刀原理。从贝叶斯估计的角度来看,正则化对应于模型的先验概率,复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
同时,正则化提供了有唯一解的可能性。
2.交叉验证
另一种常用的模型选择方法是交叉验证。将给定的数据分为训练集和测试集,在此基础是反复地进行训练、测试以及模型的选择。分为简单交叉验证、S折交叉验证、留一交叉验证(适合数据缺乏的情况)。
3.泛化能力
泛化能力是是学习方法本质上的重要的性质。
泛化误差是所学习到模型的期望风险。
泛化误差上界,具体来说就是通过比较两种学习方法的泛化误差上界的大小来比较他们的优劣。
三 生成方法与判别方法
生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类。由于数据是通过联合概率分布独立同分布产生的,也即生成方法考虑了数据生成的概率分布函数。它是完全基于统计和贝叶斯理论的。包括朴素贝叶斯法和隐马尔科夫模型。
判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,在数据中找到不同类数据的差别,比如决策面,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。判决模型一个很重要的因素就是要先人为地选择一个判决机制(LR,SVM等)。
详细解释可参考http://blog.csdn.net/zouxy09/article/details/8195017
四 分类问题、标注问题、回归问题
二分类问题和标注问题的常用评价指标是精确率和召回率。
回归问题的常用的损失函数是平方损失函数,在此情况下,回归问题可以有最小二乘法求解。