【StatLearn】统计学习中knn算法实验（二）

2013-11-02

【StatLearn】统计学习中knn算法实验（2）接着统计学习中knn算法实验（1）的内容Problem：Explore the data befor

【StatLearn】统计学习中knn算法实验（2）

接着统计学习中knn算法实验（1）的内容

Problem：

Explore the data before classification using summary statistics or visualizationPre-process the data (such as denoising, normalization, feature selection, …) Try other distance metrics or distance-based votingTry other dimensionality reduction methodsHow to set the k value, if not using cross validation? Verify your idea问题：

在对数据分类之前使用对数据进行可视化处理预处理数据（去噪，归一化，数据选择）在knn算法中使用不同的距离计算方法使用其他的降维算法如何在不使用交叉验证的情况下设置k值

使用Parallel coordinates plot做数据可视化，首先对数据进行归一化处理，数据的动态范围控制在[0,1]。注意归一化的处理针对的是每一个fearture。

通过对图的仔细观察，我们挑选出重叠度比较低的feature来进行fearture selection，feature selection实际上是对数据挑选出更易区分的类型作为下一步分类算法的数据。我们挑选出feature序号为（1）、（2）、（5）、（6）、（7）、（10）的feature。个人认为，feature selection是一种简单而粗暴的降维和去噪的操作，但是可能效果会很好。

根据上一步的操作，从Parallel coordinates上可以看出，序号为（1）、（2）、（5）、（6）、（7）、（10）这几个feature比较适合作为classify的feature。我们选取以上几个feature作knn，得到的结果如下：

【StatLearn】统计学习中knn算法实验（二）

当K=1 的时候，Accuracy达到了85.38%，并且相比于简单的使用knn或者PCA+knn的方式，Normalization、Featrure Selection的方法使得准确率大大提升。我们也可以使用不同的feature搭配，通过实验得到更好的结果。

【StatLearn】统计学习中knn算法实验（二）

MaxAccuracy= 0.8834 when k=17 （Normalization+FeartureSelection+KNN）

试验中，我们使用了两种不同的Feature Selection 策略，选用较少fearture的策略对分类的准确率还是有影响的，对于那些从平行坐标看出的不那么好的fearture，对分类还是有一定的帮助的。在较小的k值下，Feature Selection的结果要比直接采用全部Feature的结果要好。这也体现了在相对纯净的数据下，较小的k值能够获得较好的结果，这和直观感觉出来的一致。我们再尝试对数据进行进一步的预处理操作，比如denoising。数据去噪的方法利用对Trainning数据进行一个去处最大最小边缘值的操作，我们认为，对于一个合适的feature，它的数据应该处于一个合理的范围中，过大或者过小的数据都将是异常的。

Denoising的代码如下：




采用LLE作为降维的手段，通过和以上的几种方案作对比，如下：

MaxAccuracy= 0.9376 when K=23 （LLE dimensionality reduction to 2）
关于LLE算法，参见这篇论文
Nonlinear dimensionality reduction by locally linear embedding.Sam Roweis & Lawrence Saul.Science, v.290 no.5500 , Dec.22, 2000. pp.2323--2326.以及项目主页：http://www.cs.nyu.edu/~roweis/lle/

源代码：
StatLearnProj.m
function Accuracy=CalcAccuracyPlus(TestData,TestLabel,TrainningData,TrainningLabel,Dist)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%just as CalcAccuracy,but add distance metrics%calculate the accuracy of classify%TestData:M*D matrix D stand for dimension,M is sample%TrainningData:T*D matrix%TestLabel:Label of TestData%TrainningLabel:Label of Trainning Data%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%CompareResult=[];for k=1:2:51    ClassResult=knnclassify(TestData,TrainningData,TrainningLabel,k,Dist);    CompareResult=cat(2,CompareResult,(ClassResult==TestLabel));endSumCompareResult=sum(CompareResult,1);Accuracy=SumCompareResult/length(CompareResult(:,1));

热点排行

其他相关

【StatLearn】统计学习中knn算法实验（二）