喜欢网络爬虫的进
前几天 做了一个和简陋的网络爬虫 爬一个网站某个栏目的正文,由于那个网站的链接是有规律的所以就把要爬取网页用数组保存起来,在通过正则匹配等过滤掉不要的。但是稍微知道爬虫的都知道,爬虫的网页不是内存的,是一个个爬取,然后放入数组,接着对放入的网址进行爬取,找了一本书,在网上也找到相关资料,不过也没有搞懂,大牛们可否指点一二。很想完善这个简陋的爬虫,谢谢啦 爬虫 网络爬虫 正则
[解决办法]
是不是用ThreadPoolExecutor
[解决办法]