Nutch 1.0源代码分析(三): Fetch - 2

2012-09-05

Nutch 1.0源代码分析(3): Fetch -- 2removedfor (int i 0 i threadCount i++) {// spawn threadsnew

Nutch 1.0源代码分析(3): Fetch -- 2
removed for (int i = 0; i < threadCount; i++) { // spawn threads new FetcherThread(getConf()).start(); }

從這個代碼裏看，好像抓取網頁的時候并沒有用到分布式任務來抓取
只是用在master這個主機上進行了抓取

for (int i = 0; i < threadCount; i++) { // spawn threads new FetcherThread(getConf()).start(); }

從這個代碼裏看，好像抓取網頁的時候并沒有用到分布式任務來抓取
只是用在master這個主機上進行了抓取

不是的，请看Fetch分析的第1篇，Fetch本身是用MapReduce写的，FetchThread是Fetch中的，所以抓取网页是分布式的。每台task node又是多线程的，是这样的关系

热点排行

liunx下令（二）
Internet产品设计进阶（7）还需要懂点UML
一张图破译大数据，云计算，物联网和移动
网易163再次开放POP3/SMTP，携手其他措施
原：nginx系统访问权限造成http响应慢的
微博的短url怎么实现
腾讯宣言致广大QQ用户的一封信
环球DNS服务器更新间隔将缩短为几秒
浏览器出现You have reached the maximu
巧用google兑现快速搜索

互联网

Nutch 1.0源代码分析(三): Fetch - 2