支持向量机原理(二) 线性支持向量机的软间隔最大化模型1. 线性分类SVM面临的问题2. 线性分类SVM的软间隔最大化3. 线性分类SVM的软间隔最大化目标函数的优化4. 软间隔最大化时的支持向量5. 软间隔最大化的线性可分SVM的算法过程6. 合页损失函数

　　　　另外一种情况没有这么糟糕到不可分，但是会严重影响我们模型的泛化预测效果，比如下图，本来如果我们不考虑异常点，SVM的超平面应该是下图中的红色线所示，但是由于有一个蓝色的异常点，导致我们学习到的超平面是下图中的粗虚线所示，这样会严重影响我们的分类模型预测效果。

　　　　如何解决这些问题呢？SVM引入了软间隔最大化的方法来解决。

　　　　所谓的软间隔，是相对于硬间隔说的，我们可以认为上一篇线性分类SVM的学习方法属于硬间隔最大化。

　　　　回顾下硬间隔最大化的条件：min12||w||22s.tyi(wTxi+b)≥1(i=1,2,...m)

　　　　接着我们再看如何可以软间隔最大化呢？

　　　　SVM对训练集里面的每个样本(xi,yi)引入了一个松弛变量ξi≥0,使函数间隔加上松弛变量大于等于1，也就是说：yi(w∙xi+b)≥1−ξi

　　　　对比硬间隔最大化，可以看到我们对样本到超平面的函数距离的要求放松了，之前是一定要大于等于1，现在只需要加上一个大于等于0的松弛变量能大于等于1就可以了。当然，松弛变量不能白加，这是有成本的，每一个松弛变量ξi, 对应了一个代价ξi，这个就得到了我们的软间隔最大化的SVM学习条件如下：min12||w||22+Cm∑i=1ξis.t.yi(wTxi+b)≥1−ξi(i=1,2,...m)ξi≥0(i=1,2,...m)

　　　　这里,C>0为惩罚参数，可以理解为我们一般回归和分类问题正则化时候的参数。C越大，对误分类的惩罚越大，C越小，对误分类的惩罚越小。

　　　　也就是说，我们希望12||w||22尽量小，误分类的点尽可能的少。C是协调两者关系的正则化惩罚系数。在实际应用中，需要调参来选择。

　　　　这个目标函数的优化和上一篇的线性可分SVM的优化方式类似，我们下面就来看看怎么对线性分类SVM的软间隔最大化来进行学习优化。

　　　　和线性可分SVM的优化方式类似，我们首先将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题如下：L(w,b,ξ,α,μ)=12||w||22+Cm∑i=1ξi−m∑i=1αi[yi(wTxi+b)−1+ξi]−m∑i=1μiξi

　　　　其中 μi≥0,αi≥0,均为拉格朗日系数。

　　　　也就是说，我们现在要优化的目标函数是：min⏟w,b,ξmax⏟αi≥0,μi≥0,L(w,b,α,ξ,μ)

　　　　这个优化目标也满足KKT条件，也就是说，我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解如下：max⏟αi≥0,μi≥0,min⏟w,b,ξL(w,b,α,ξ,μ)

　　　　我们可以先求优化函数对于w,b,ξ的极小值, 接着再求拉格朗日乘子α和 μ的极大值。

　　　　首先我们来求优化函数对于w,b,ξ的极小值，这个可以通过求偏导数求得：∂L∂w=0⇒w=m∑i=1αiyixi∂L∂b=0⇒m∑i=1αiyi=0∂L∂ξ=0⇒C−αi−μi=0

　　　　好了，我们可以利用上面的三个式子去消除w和b了。

L(w,b,ξ,α,μ)=12||w||22+Cm∑i=1ξi−m∑i=1αi[yi(wTxi+b)−1+ξi]−m∑i=1μiξi　=12||w||22−m∑i=1αi[yi(wTxi+b)−1+ξi]+m∑i=1αiξi=12||w||22−m∑i=1αi[yi(wTxi+b)−1]=12wTw−m∑i=1αiyiwTxi−m∑i=1αiyib+m∑i=1αi=12wTm∑i=1αiyixi−m∑i=1αiyiwTxi−m∑i=1αiyib+m∑i=1αi=12wTm∑i=1αiyixi−wTm∑i=1αiyixi−m∑i=1αiyib+m∑i=1αi=−12wTm∑i=1αiyixi−m∑i=1αiyib+m∑i=1αi=−12wTm∑i=1αiyixi−bm∑i=1αiyi+m∑i=1αi=−12(m∑i=1αiyixi)T(m∑i=1αiyixi)−bm∑i=1αiyi+m∑i=1αi=−12m∑i=1αiyixTim∑i=1αiyixi−bm∑i=1αiyi+m∑i=1αi=−12m∑i=1αiyixTim∑i=1αiyixi+m∑i=1αi=−12m∑i=1,j=1αiyixTiαjyjxj+m∑i=1αi=m∑i=1αi−12m∑i=1,j=1αiαjyiyjxTixj

　　　　其中，(1)式到(2)式用到了C−αi−μi=0, (2)式到(3)式合并了同类项，(3)式到(4)式用到了范数的定义||w||22=wTw, (4)式到(5)式用到了上面的w=m∑i=1αiyixi， (5)式到(6)式把和样本无关的wT提前，(6)式到(7)式合并了同类项，(7)式到(8)式把和样本无关的b提前，(8)式到(9)式继续用到w=m∑i=1αiyixi，（9）式到(10)式用到了向量的转置。由于常量的转置是其本身，所有只有向量xi被转置，（10）式到(11)式用到了上面的m∑i=1αiyi=0，（11）式到(12)式使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则，（12）式到(13)式仅仅是位置的调整。

　　　　仔细观察可以发现，这个式子和我们上一篇线性可分SVM的一样。唯一不一样的是约束条件。现在我们看看我们的优化目标的数学形式：max⏟αm∑i=1αi−12m∑i=1,j=1αiαjyiyjxTixjs.t.m∑i=1αiyi=0C−αi−μi=0αi≥0(i=1,2,...,m)μi≥0(i=1,2,...,m)

　　　　对于C−αi−μi=0，αi≥0，μi≥0这3个式子，我们可以消去μi，只留下αi，也就是说0≤αi≤C。同时将优化目标函数变号，求极小值，如下：min⏟α12m∑i=1,j=1αiαjyiyjxTixj−m∑i=1αis.t.m∑i=1αiyi=00≤αi≤C

　　　　这就是软间隔最大化时的线性可分SVM的优化目标形式，和上一篇的硬间隔最大化的线性可分SVM相比，我们仅仅是多了一个约束条件0≤αi≤C。我们依然可以通过SMO算法来求上式极小化时对应的α向量就可以求出w和b了。

　　　　在硬间隔最大化时，支持向量比较简单，就是满足yi(wTxi+b)−1=0就可以了。根据KKT条件中的对偶互补条件α∗i(yi(wTxi+b)−1)=0，如果α∗i>0则有yi(wTxi+b)=1 即点在支持向量上，否则如果α∗i=0则有yi(wTxi+b)≥1，即样本在支持向量上或者已经被正确分类。

　　　　在软间隔最大化时，则稍微复杂一些，因为我们对每个样本(xi,yi)引入了松弛变量ξi。我们从下图来研究软间隔最大化时支持向量的情况，第i个点到对应类别支持向量的距离为ξi||w||2。根据软间隔最大化时KKT条件中的对偶互补条件α∗i(yi(wTxi+b)−1+ξ∗i)=0我们有：

　　　　a) 如果α=0,那么yi(wTxi+b)−1≥0,即样本在支持向量上或者已经被正确分类。如图中所有远离支持向量的点。

　　　　b) 如果0≤α≤C,那么ξi=0,yi(wTxi+b)−1=0,即点在支持向量上。如图中在虚线支持向量上的点。

　　　　c) 如果α=C，说明这是一个可能比较异常的点，需要检查此时ξi

　　　　　　i)如果0≤ξi≤1,那么点被正确分类，但是却在超平面和自己类别的支持向量之间。如图中的样本2和4.

　　　　　　ii)如果ξi=1,那么点在分离超平面上，无法被正确分类。

　　　　　　iii)如果ξi>1,那么点在超平面的另一侧，也就是说，这个点不能被正常分类。如图中的样本1和3.

　　　　这里我们对软间隔最大化时的线性可分SVM的算法过程做一个总结。

　　　　输入是线性可分的m个样本(x1,y1),(x2,y2),...,(xm,ym),,其中x为n维特征向量。y为二元输出，值为1，或者-1.

　　　　输出是分离超平面的参数w∗和b∗和分类决策函数。

　　　　算法过程如下：

　　　　1）选择一个惩罚系数C>0, 构造约束优化问题min⏟α12m∑i=1,j=1αiαjyiyjxTixj−m∑i=1αis.t.m∑i=1αiyi=00≤αi≤C

　　　　2）用SMO算法求出上式最小时对应的α向量的值α∗向量.

　　　　3) 计算w∗=m∑i=1α∗iyixi

　　　　4) 找出所有的S个支持向量,即满足0<αs<C对应的样本(xs,ys)，通过 ys(S∑i=1αiyixTixs+b)=1，计算出每个支持向量(xx,ys)对应的b∗s,计算出这些b∗s=ys−S∑i=1αiyixTixs. 所有的b∗s对应的平均值即为最终的b∗=1SS∑i=1b∗s

　　　　这样最终的分类超平面为：w∗∙x+b∗=0，最终的分类决策函数为：f(x)=sign(w∗∙x+b∗)

　　　　线性支持向量机还有另外一种解释如下：min⏟w,b[1−yi(w∙x+b)]++λ||w||22

　　　　其中L(y(w∙x+b))=[1−yi(w∙x+b)]+称为合页损失函数(hinge loss function)，下标+表示为：

[z]+={zz>00z≤0

　　　　也就是说，如果点被正确分类，且函数间隔大于1，损失是0，否则损失是1−y(w∙x+b),如下图中的绿线。我们在下图还可以看出其他各种模型损失和函数间隔的关系：对于0-1损失函数，如果正确分类，损失是0，误分类损失1，如下图黑线，可见0-1损失函数是不可导的。对于感知机模型，感知机的损失函数是[−yi(w∙x+b)]+，这样当样本被正确分类时，损失是0，误分类时，损失是−yi(w∙x+b)，如下图紫线。对于逻辑回归之类和最大熵模型对应的对数损失，损失函数是log[1+exp(−y(w∙x+b))], 如下图红线所示。

　　　　线性可分SVM通过软间隔最大化，可以解决线性数据集带有异常点时的分类处理，但是现实生活中的确有很多数据不是线性可分的，这些线性不可分的数据也不是去掉异常点就能处理这么简单。那么SVM怎么能处理中这样的情况呢？我们在下一篇就来讨论线性不可分SVM和核函数的原理。

本文转自刘建平Pinard博客园博客，原文链接：http://www.cnblogs.com/pinard/p/6100722.html，如需转载请自行联系原作者

继续阅读

Codeforces 1417 D. Make Them Equal(思维+构造)

查找算法之二分查找查找算法之二分查找

查找算法学习之二分查找（Python版本）——BinarySearch

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希