学习SVM（二）如何理解支持向量机的最大分类间隔

2018-07-30
5681
0
0
0
CSDN
chaibubble

SVM 分类器向量

SVM算法在在1995年正式发表，在针对中小型数据规模的分类任务上有着卓越的效果，同时有着完整的理论证明，在20世纪末的几年和21世纪初的10年完胜神经网络，吴恩达在其2003年的《Machien learning》公开课上用两节课的时间对其进行讲解，而神经网络讲解了20min左右。就是这个算法把神经网络按在地上摩擦了大概15年的时间，直到深度学习的兴起。但即便这样，现在SVM算法依旧被广泛的使用。

SVM大概的可以不确切的分为三个程度理解：
（1）线性可分情况下的线性分类器，这是最原始的SVM，它最核心的思想就是最大的分类间隔（margin maximization）；
（2）线性不可分情况下的线性分类器，引入了软间隔（soft margin）的概念；
（3）线性不可分情况下的非线性分类器，是SVM与核函数（kernel function）的结合。
在下面只会第一部分的内容。

什么是最大分类间隔

SVM最大分类间隔的灵感来自于一个非常符合直觉的观察，如果存在两类数据，数据的特征是二维的，那么我们就可以把数据画在一个二维平面上，此时我想找到一个决策面（决策边界）去将这两类数据分开。如下图所示：

理论上这个决策边界有无数种选择，就像图中画出的四条黑色的线，都能实现分类，但是哪一种是最好的分类方式呢？SVM算法认为在上图中靠近决策平边界的点（正负样本）与决策边界的距离最大时，是最好的分类选择：

上图中红色的线就是要优化的目标，它表征了数据到决策边界的距离，这个距离就是所谓的最大分类间隔。同时在上面的几个数据，如果靠近两侧的数据少了几个，也不会影响决策边界的确定，而被红色框框出来三个数据才决定了最终的决策边界，所以这三个数据被称之为支持向量。

线性分类器

支持向量机算法如何实现最大分类间隔的任务呢？我们可以先从线性分类器开始理解它，支持向量在没有引入核函数的时候就是一个线性的分类器，我们假设与决策边界垂直的向量（决策面的法向量）为V：

黑色的线是假设的决策边界，X1和X2是决策边界两侧的两个点，Xt1和Xt2是两个点在法向量V上面的投影，那么可以很直观看到，原点到Xt1的距离<原点到Xt2的距离，而且可以推广延伸到只要数据点在决策边界的两侧，那么在决策边界左侧的数据点在法向量上面的投影距离永远比右侧的距离短，这就是支持向量机实现分类预测的依据。那么怎么用公式表征出这个点到直线投影的距离呢？
可以做这样一个假设验证一下：