首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

Generator一部分個人總結

2012-12-26 
Generator部分個人總結1.將crawlDB按照score,并且過濾掉不需要抓取的url,依次生成多個fetchlist(由topN和m

Generator部分個人總結
1.將crawlDB按照score,并且過濾掉不需要抓取的url,依次生成多個fetchlist(由topN和maxNumSegments決定fetchlist的數量和大小)(M/R)
2.將fetchlist依次,轉換成按urlhash來排序,由此生成segments(M/R)
3.根據配置,是否要更新crawldb(M/R)

可以保証,只取score最高的那個segment

如果是垂直搜索,是否按照下次抓取時間來排序更好呢,我正打算這麽做。

热点排行