首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > VC/MFC >

正单独做一个爬虫软件,想做的和百度一样强大

2013-01-09 
正独自做一个爬虫软件,想做的和百度一样强大。现在有个问题想请教各位,从初始url开始,要把广度优先搜索到的

正独自做一个爬虫软件,想做的和百度一样强大。
现在有个问题想请教各位,从初始url开始,要把广度优先搜索到的所有页面存进数据库吗?还是找到一个页面,看它的页面里是否有需要的信息,没有就丢弃,不存。
但这样的话几亿的页面何时才能扫描完?
看一本书里说用Berkeley DB存储key/value结构,这个key存储的是url,value存储的是页面的信息,既然访问过了,为何还要存进数据库呢?
sql存储应该也可以吧?

[解决办法]
我觉得应该多线程:
一部分线程解析页面中,把所含的超级链接存进数据库。
一部分线程,按数据库中的url下载网页。

value存储的是页面的信息,即使访问过了,保存下来也是有益的。

大量的网页转帖,仅用url是无法判断的。
[解决办法]
不是说360的爬虫比百度还强大吗?
[解决办法]


[解决办法]
存入什么信息网数据库,关键是看你的个人需求。对于网页这样的大量信息,楼主可以考虑一下用非关系数据库
[解决办法]
关系数据库对付小规模数据还行,数据量一大,访问量一大性能就不行了。

楼主试下apache的压力测试ab看看。

热点排行