Nutch相关框架视频教程5
第五讲
土豆在线视频地址(66分钟)
超清原版下载地址1、? 域统计
bin/nutch ?domainstats ?data2/crawldb/current ?host ?host
bin/nutch ?domainstats?data2/crawldb/current ?domain domain
bin/nutch ?domainstats?data2/crawldb/current ?suffix suffix
bin/nutch ?domainstats?data2/crawldb/current ?tld ?tld
2、webgraph
bin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb
有相同inlinks的URL,只输出topn条
bin/nutch nodedumper -inlinks -output ?inlinks -topn 1 -webgraphdb data2/webgraphdb
有相同outlinks的URL,只输出topn条
bin/nutch nodedumper -outlinks? -output ?outlinks -topn 1 -webgraphdb data2/webgraphdb
有相同scores的URL,只输出topn条(初始分值全为0)
bin/nutch nodedumper -scores? -output scores -topn 1 -webgraphdbdata2/webgraphdb
计算URL分值
bin/nutch ?linkrank? -webgraphdb ?data2/webgraphdb
再次查看分值
bin/nutch nodedumper -scores? -output scores –topn 1 -webgraphdbdata2/webgraphdb
对结果进行分组,取最大值或是连加和(topn参数不参与)
bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum ?-webgraphdbdata2/webgraphdb
?
?
bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max ?-webgraphdbdata2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。