首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

【hadoop学习】在伪分布式hadoop下手把手实践word count程序【上】

2012-10-18 
【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】3. 准备输入的数据文件前段时间看svm,也参考

【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】

3. 准备输入的数据文件

前段时间看svm,也参考了libsvm,其中有个分类测试数据,内容如下:

-1      235101       7446100:1   53101:1   79102:1   64103:1   613104:1   36105:1   23106:1   28107:1   67108:1   17109:1   2610:1    1978110:1   47111:1   44112:1   56113:1   12114:1   58115:1   33116:1   12117:1   16118:1   15119:1   9811:1    1222120:1   19121:1   31122:1   20123:1   112:1    1413:1    614:1    618615:1    618916:1    619717:1    6177

呵呵,可以看到,“-1”出现的次数是23510,就这个文件来说,-1表示负类的样本数;相应的,正样本数是7446。接下来,特征“100:1”出现的次数是53,特征“101:1”是79......我就不具体解释了,做过机器学习算法的人都会知道上面表示什么意思。


总之,word count程序在我macbook pro的伪分布式上成功运行!将来,可以在进一步折腾了。


热点排行