[原创]美女图片爬虫程序实战!~用技术创造快感!很久没把自己做的东西拿出来和大家分享了,今天总算想到可以
[原创]美女图片爬虫程序实战!~用技术创造快感!
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以 http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。 程序说明:com.th.spider.Main 运行这个抓取美女图片com.th.spider.test.* 样例程序com.th.spider.CookieLogin 模拟登陆实例com.th.spider.Clean 清除没图片的目录和无效图片目录? 用技术创造快感!!!! 嘿嘿?Email:wellse@qq.com ?
下载资源:
图片抓取代码.zip ?网络爬虫原理与实战PPT.zip
主要技术:
Jsoup、HttpClient.
配置说明:
config.properties
#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html
#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2
#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50
配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名
抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。
论坛帖子列表 http://www.36mn.com/forum-62-1.html ![[原创]美女图片爬虫程序实战!用技术创设快感](//img.reader8.net/uploadfile/jiaocheng/20140140/2749/2014012718495716679.jpg)
其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html
![[原创]美女图片爬虫程序实战!用技术创设快感](//img.reader8.net/uploadfile/jiaocheng/20140140/2749/2014012718495716680.jpg)
抓取结果
![[原创]美女图片爬虫程序实战!用技术创设快感](//img.reader8.net/uploadfile/jiaocheng/20140140/2749/2014012718495716681.jpg)
30 楼 peak 2011-06-28 这个上AV网站必备的啊 31 楼 rkikbs 2011-06-28 下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。 32 楼 tntxia 2011-06-28 那个Cookie是怎么计算出来的。 33 楼 sdu_wizard 2011-06-28 如果图片没有class属性怎么办? 34 楼 lxs647 2011-06-28 空即是色,色即是空,,看开点儿、、、
一切皆乃浮云、、、 35 楼 willse 2011-06-28 tntxia 写道那个Cookie是怎么计算出来的。
Cookie 使用IEHttpHeader 软件抓取的! 36 楼 willse 2011-06-28 lxs647 写道空即是色,色即是空,,看开点儿、、、
一切皆乃浮云、、、
施主已经遁入空门.. 何苦留恋凡尘呢? 37 楼 willse 2011-06-28 sdu_wizard 写道如果图片没有class属性怎么办?
如果没有class属性,可以看看他其他的属性特征。
如 url like "http://himg2.huanqiu.com/attachment2010/"
//找到美女图片,这个需要分析返回HTML中的图片元素特征。
Elements elements = doc.select("url[href*=http://himg2.huanqiu.com/attachment2010/]");
反正需要根据实际情况分析HTML中的图片具有哪些特性,这样才能准确抓取。 38 楼 willse 2011-06-28 rkikbs 写道下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。
施主莫非想翻@墙劫色.......... 嘿嘿 39 楼 elan1986 2011-06-28 很不错的好方法啊! 40 楼 ccxw1983 2011-06-29 下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。 41 楼 MyEyeOfJava 2011-06-29 不管怎么说,我自己觉得有用就行了,爬虫小程序,mark 42 楼 MyEyeOfJava 2011-06-29 yangguo 写道能够图像识别出美女才叫牛!你这样猫猫狗狗也拿回来了。
何况我百度图片一下美女,不比你这个容易淫的一手好湿么。
就鄙视你这样的,你要是不能实现就少BBBB的。。。 43 楼 Cindy_Lee 2011-06-29 “草榴”是什么,我火星了 44 楼 iqeq00 2011-06-29 这个东西有点神奇,下载下来看看,呵呵... 45 楼 181054867 2011-06-29 超,做这个太简单啦!!! 46 楼 dfbb222222 2011-06-29 年前写过一个爬虫抓们爬sexinsex board 通宵开机扒网站资源 。 47 楼 lipeng88213 2011-06-29 a68091555 写道嘿嘿,刚才爬了下草榴的,有点意思
这个注意不错 48 楼 babylon3389 2011-06-29 哈哈,以前也搞过这类滴事情~ 49 楼 留恋蓝色 2011-06-29 ccxw1983 写道下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。
呵呵,跟我用的一样,也是htmlcleaner跟xpath
不过不会写通用性的,只会针对单个网站或者网页抓