【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】
3. 准备输入的数据文件
前段时间看svm,也参考了libsvm,其中有个分类测试数据,内容如下:
-1 235101 7446100:1 53101:1 79102:1 64103:1 613104:1 36105:1 23106:1 28107:1 67108:1 17109:1 2610:1 1978110:1 47111:1 44112:1 56113:1 12114:1 58115:1 33116:1 12117:1 16118:1 15119:1 9811:1 1222120:1 19121:1 31122:1 20123:1 112:1 1413:1 614:1 618615:1 618916:1 619717:1 6177
呵呵,可以看到,“-1”出现的次数是23510,就这个文件来说,-1表示负类的样本数;相应的,正样本数是7446。接下来,特征“100:1”出现的次数是53,特征“101:1”是79......我就不具体解释了,做过机器学习算法的人都会知道上面表示什么意思。
总之,word count程序在我macbook pro的伪分布式上成功运行!将来,可以在进一步折腾了。