【hadoop学习】在伪分布式hadoop下手把手实践word count程序【上】

2012-10-18

【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】3. 准备输入的数据文件前段时间看svm，也参考

【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】

3. 准备输入的数据文件

前段时间看svm，也参考了libsvm，其中有个分类测试数据，内容如下：

-1      235101       7446100:1   53101:1   79102:1   64103:1   613104:1   36105:1   23106:1   28107:1   67108:1   17109:1   2610:1    1978110:1   47111:1   44112:1   56113:1   12114:1   58115:1   33116:1   12117:1   16118:1   15119:1   9811:1    1222120:1   19121:1   31122:1   20123:1   112:1    1413:1    614:1    618615:1    618916:1    619717:1    6177

呵呵，可以看到，“-1”出现的次数是23510，就这个文件来说，-1表示负类的样本数；相应的，正样本数是7446。接下来，特征“100:1”出现的次数是53，特征“101:1”是79......我就不具体解释了，做过机器学习算法的人都会知道上面表示什么意思。

总之，word count程序在我macbook pro的伪分布式上成功运行！将来，可以在进一步折腾了。