正单独做一个爬虫软件，想做的和百度一样强大

2013-01-09

正独自做一个爬虫软件，想做的和百度一样强大。现在有个问题想请教各位，从初始url开始，要把广度优先搜索到的

正独自做一个爬虫软件，想做的和百度一样强大。
现在有个问题想请教各位，从初始url开始，要把广度优先搜索到的所有页面存进数据库吗？还是找到一个页面，看它的页面里是否有需要的信息，没有就丢弃，不存。
但这样的话几亿的页面何时才能扫描完？
看一本书里说用Berkeley DB存储key/value结构，这个key存储的是url,value存储的是页面的信息，既然访问过了，为何还要存进数据库呢？
sql存储应该也可以吧？

[解决办法]
我觉得应该多线程：
一部分线程解析页面中，把所含的超级链接存进数据库。
一部分线程，按数据库中的url下载网页。

value存储的是页面的信息，即使访问过了，保存下来也是有益的。

大量的网页转帖，仅用url是无法判断的。
[解决办法]
不是说360的爬虫比百度还强大吗？
[解决办法]

[解决办法]
存入什么信息网数据库，关键是看你的个人需求。对于网页这样的大量信息，楼主可以考虑一下用非关系数据库
[解决办法]
关系数据库对付小规模数据还行，数据量一大，访问量一大性能就不行了。

楼主试下apache的压力测试ab看看。

热点排行

VC/MFC

正单独做一个爬虫软件，想做的和百度一样强大