学习SVM（五）理解线性SVM的松弛因子

2018-07-30
3994
0
0
0
CSDN
chaibubble

SVM 函数松弛因子因子

先说一个事引出这个博客的内容，我最近投的一篇论文被拒稿，用到的方法使SVM（很惭愧，还在用20年前的算法，当然这并不是重点），审稿意见里面有一段话是这样说的（说的很中肯）：“该方法本身的特点来看就很难达到100%正确率”，当然这并不是说SVM无法做到100%，我理解的很难达到的原因就是在于SVM算法本身的松弛因子的引入。

为什么要引入松弛因子

从前面四个内容来看，SVM理论可以完美的找到正负样本间的最大的分类间隔，这意味着不仅仅可以实现对训练数据的分类，还保证了决策平面是最理想的。那么SVM为什么还要引入松弛因子呢？我们可以看下面这个例子：

实线的决策平面分开了所有的正负样本，但是造成的结果是最大分类间隔非常小，而虚线虽然没有完全区分开所有的正负样本，但是保证了分类间隔更大，这个例子可以说明，不一定实线完全分类的决策平面就是最好的。
同时，还有一种情况，如果左上角的圆再向右侧移动的话，那么样本的数据本身就是线性不可分的。
综合上面的两点考虑，SVM引入了松弛因子。

新的目标函数

在原有的约束条件上加入一个松弛因子，要求，那么约束条件变为：

很显然，由于松弛因子是一个正数，那么新的约束条件一定没有原来的条件“严格”，也就是松弛了。
同时，目标函数同样发生变化：

这个目标函数的变化是通过间隔松弛向量的范数定义的泛化误差界推导的出来，但是这不是SVM的重点，重点在于改变的目标函数对决策平面的影响。
除了一阶软间隔分类器，SVM的目标函数还有二阶软间隔分类器的形式：

而无论是上述哪种情况，实际上都是为目标函数引入一个损失，而上面的参数C被称之为惩罚因子。
惩罚因子的大小决定了对离群点的容忍程度（松弛的程度），比如，如果C是一个非常大的值，那么很小的松弛因子都会让目标函数的值边的很大，然后目标是在求一个最小值，这就意味着哪怕是个很小的松弛都不愿意容忍。还有一种极端的情况是如果C选定成一个无穷大的值，那么软分类间隔问题（soft margin）会退化称为一个硬分类间隔问题（hard margin）。