首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

nutch-1.x分布式目录指定

2012-07-03 
nutch-1.x分布式索引指定1、nutch-1.x中在crawl.java中。最后有这么一句话。?indexer.index(indexes, crawlDb

nutch-1.x分布式索引指定

1、nutch-1.x中在crawl.java中。最后有这么一句话。

?indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));

它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。

2、

dedup.dedup(new Path[] { indexes });
fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);

主要是对刚才生成的indexes索引部分进行合并(MD5)。删除重复的索引。根据自己的业务可以适量的修改。

2、分布式索引在指定时也可以指定 indexes部分,也可以指定index部分,两者的区别应该知道了吧!

热点排行