hadoop控制地图per的数目

2012-08-28

hadoop控制mapper的数目由于数据上传后，一般以集群的默认dfs.block.size作为块大小。但是由于我的输入文件

hadoop控制mapper的数目
由于数据上传后，一般以集群的默认dfs.block.size作为块大小。
但是由于我的输入文件小于块大小，但是每一行又需要在mapper中做并行，在默认的情况下，hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法：
在主函数中设置：

job.getConfiguration().setInt("mapred.max.split.size",10000000); // for split and get more mappers

在上述设置后，原来我默认的dfs.block.size是256mb，输入文件大小为120mb，按照10000000字节(不到10mb)来切分，因此得到mapper的任务数目为13。因此可以实现控制mapper的数目的目的。

当然要减少mapper的task的数目只要相应地调大这个值就好。

热点排行

编程