首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

heritrix 拔高抓取速度

2012-09-28 
heritrix 提高抓取速度最近一直用heritrix爬取网站,? 晚上heritrix一直运行着, 但奇怪的是heritrix 抓取速

heritrix 提高抓取速度

最近一直用heritrix爬取网站,? 晚上heritrix一直运行着, 但奇怪的是heritrix 抓取速度非常慢, 抓取一个网站, 用了8个多小时, 竟然没有运行完。 于是根据LOG 分析了一下慢的原因

?

?

这是heritrix3的配置, 把时间改成90秒, 也就是只等待1分半钟,

如果是H1的配置, 那可以用管理界面进行配置。

改了一下速度一下提高了很多, 原来8小时才能爬完一个网站, 现在2个小时就行了。

如果再用一下heritrix

增量抓取, 那下次再抓取这个网站时, 速度又会增加很多。这样问题解决了

?

?

热点排行