数学之路(三)-机器学习(3)-机器学习算法-SVM[7]

数学之路(3)-机器学习(3)-机器学习算法-SVM[7]SVM是新近出现的强大的数据挖掘工具，它在文本分类、手写文字

数学之路(3)-机器学习(3)-机器学习算法-SVM[7]

SVM是新近出现的强大的数据挖掘工具，它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法，样本以属性向量的形式提供，所以输入空间是Rn的子集。

图1

如图1所示，SVM的目标是找到两个间距尽可能大的边界平面来把样本本点分开，以”最小化泛化误差“，即对新的样本点进行分类预测时，出错的几率最小。落在边界平面上的点称为支持向量。Vapnik证明如果可以找到一个较小的支持向量集，就可以保证得到很好的泛化能力----也就是说支持向量的个数越少越好。

数据点通常在输入空间是线性不可分的，我们把它映射到更高维的特征空间，使其线性可分----这里的映射函数我们称之为核函数。特征空间的超平面对应输入空间的一个非线性的分离曲面，因此称为非线性分离器。

线性SVM分类器的输出是u=w*x-b。w是分类平面的法矢，x是输入向量，b是常量，u代表分类。即SVM的目的就是计算出w和b。最大化margin（两个分类平面之间的距离）等价于求下面的二次优化问题：

数学之路(三)-机器学习(3)-机器学习算法-SVM[7]

对于非线性分类器就要把x映射到特征空间,同时考虑误差ε的存在（即有些样本点会越过分类边界），上述优化问题变为：

数学之路(三)-机器学习(3)-机器学习算法-SVM[7]

从输入空间是映射到特征空间的函数称为核函数，LibSVM中使用的默认核函数是RBF（径向基函数radial basis function），即

数学之路(三)-机器学习(3)-机器学习算法-SVM[7]

这样一来就有两个参数需要用户指定：c和gamma。

我们先安装python的机器学习库

http://sourceforge.net/projects/mlpy/

该学习库有以下3个核函数

1、‘linear’ (uT*v)

2、‘poly’ ((gamma*uT*v +coef0)^degree)

3、‘rbf’ (exp(-gamma*|u-v|^2)), ‘sigmoid’ (tanh(gamma*uT*v + coef0))
其中degree为 [int (for ‘poly’ kernel_type)] degree in kernel

下载并安装后，调用其中的SVM模块对下面的数据进行训练，这次训练我们使用线性核做为SVM的核函数