首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 互联网 >

Nutch有关框架视频教程5

2013-05-02 
Nutch相关框架视频教程5第五讲土豆在线视频地址(66分钟) 超清原版下载地址压缩高清下载地址?1、? 域统计bin

Nutch相关框架视频教程5

第五讲

土豆在线视频地址(66分钟)

超清原版下载地址
压缩高清下载地址?

1、? 域统计

bin/nutch ?domainstats ?data2/crawldb/current ?host ?host

bin/nutch ?domainstats?data2/crawldb/current ?domain domain

bin/nutch ?domainstats?data2/crawldb/current ?suffix suffix

bin/nutch ?domainstats?data2/crawldb/current ?tld ?tld

2、webgraph

bin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb

有相同inlinks的URL,只输出topn条

bin/nutch nodedumper -inlinks -output ?inlinks -topn 1 -webgraphdb data2/webgraphdb

有相同outlinks的URL,只输出topn条

bin/nutch nodedumper -outlinks? -output ?outlinks -topn 1 -webgraphdb data2/webgraphdb

有相同scores的URL,只输出topn条(初始分值全为0)

bin/nutch nodedumper -scores? -output scores -topn 1 -webgraphdbdata2/webgraphdb

计算URL分值

bin/nutch ?linkrank? -webgraphdb ?data2/webgraphdb

再次查看分值

bin/nutch nodedumper -scores? -output scores –topn 1 -webgraphdbdata2/webgraphdb

对结果进行分组,取最大值或是连加和(topn参数不参与)

bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum ?-webgraphdbdata2/webgraphdb

?

?

bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max ?-webgraphdbdata2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。

热点排行