Generator部分個人總結 1.將crawlDB按照score,并且過濾掉不需要抓取的url,依次生成多個fetchlist(由topN和maxNumSegments決定fetchlist的數量和大小)(M/R)2.將fetchlist依次,轉換成按urlhash來排序,由此生成segments(M/R)3.根據配置,是否要更新crawldb(M/R)可以保証,只取score最高的那個segment如果是垂直搜索,是否按照下次抓取時間來排序更好呢,我正打算這麽做。