给站长们分享个抓取新闻类的脚本
直接上代码,
?
Groovy写的,一般的网站,都可以爬了,如果哪位phper想重写,偶建议还不如装个jdk6和groovy1.7(无所谓,主要是因为偶PHP差点)
?
注释实例都有的
?
站长们,感兴趣的看下子呵
?
偶已经用这个抓取了10g图片,10w条文章了……比较恐怖
还好用
?
BS:不要轻易爬像http://www.cxdq.com/这样的网站,等死你
?
BS ag:下回再分享一个PHP的CMS和E-shop,打算做成站与站之间,用户共享,信息互相可检索的
咱现在也可以慢慢蚕食康盛的市场啊!
大家如果觉得有啥子改进,给我留言,或email,如果觉得还好的话,给我良好啊,我到现在还没一个精华、良好贴……汗
2 楼 key232323 2010-05-14 用httpclient可以做一些防盗链资源下载,不过发现很多都推荐用curl