首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

[原创]美女图片爬虫程序实战!用技术创设快感

2012-11-08 
[原创]美女图片爬虫程序实战!~用技术创造快感!很久没把自己做的东西拿出来和大家分享了,今天总算想到可以

[原创]美女图片爬虫程序实战!~用技术创造快感!
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以 http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。 程序说明:com.th.spider.Main 运行这个抓取美女图片com.th.spider.test.* 样例程序com.th.spider.CookieLogin 模拟登陆实例com.th.spider.Clean 清除没图片的目录和无效图片目录? 用技术创造快感!!!! 嘿嘿?Email:wellse@qq.com ?
下载资源:
图片抓取代码.zip ?网络爬虫原理与实战PPT.zip

主要技术:
Jsoup、HttpClient.

配置说明:
config.properties

#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html

#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2

#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50

配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名

抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。

论坛帖子列表 http://www.36mn.com/forum-62-1.html [原创]美女图片爬虫程序实战!用技术创设快感

其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html

[原创]美女图片爬虫程序实战!用技术创设快感


抓取结果

[原创]美女图片爬虫程序实战!用技术创设快感


30 楼 peak 2011-06-28   这个上AV网站必备的啊 31 楼 rkikbs 2011-06-28   下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。 32 楼 tntxia 2011-06-28   那个Cookie是怎么计算出来的。 33 楼 sdu_wizard 2011-06-28   如果图片没有class属性怎么办? 34 楼 lxs647 2011-06-28   空即是色,色即是空,,看开点儿、、、

一切皆乃浮云、、、 35 楼 willse 2011-06-28   tntxia 写道那个Cookie是怎么计算出来的。
Cookie 使用IEHttpHeader 软件抓取的! 36 楼 willse 2011-06-28   lxs647 写道空即是色,色即是空,,看开点儿、、、

一切皆乃浮云、、、

施主已经遁入空门.. 何苦留恋凡尘呢? 37 楼 willse 2011-06-28   sdu_wizard 写道如果图片没有class属性怎么办?
如果没有class属性,可以看看他其他的属性特征。

如 url like "http://himg2.huanqiu.com/attachment2010/"

//找到美女图片,这个需要分析返回HTML中的图片元素特征。
Elements elements = doc.select("url[href*=http://himg2.huanqiu.com/attachment2010/]");

反正需要根据实际情况分析HTML中的图片具有哪些特性,这样才能准确抓取。 38 楼 willse 2011-06-28   rkikbs 写道下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。

施主莫非想翻@墙劫色.......... 嘿嘿 39 楼 elan1986 2011-06-28   很不错的好方法啊! 40 楼 ccxw1983 2011-06-29   下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。 41 楼 MyEyeOfJava 2011-06-29   不管怎么说,我自己觉得有用就行了,爬虫小程序,mark 42 楼 MyEyeOfJava 2011-06-29   yangguo 写道能够图像识别出美女才叫牛!你这样猫猫狗狗也拿回来了。
何况我百度图片一下美女,不比你这个容易淫的一手好湿么。
就鄙视你这样的,你要是不能实现就少BBBB的。。。 43 楼 Cindy_Lee 2011-06-29   “草榴”是什么,我火星了 44 楼 iqeq00 2011-06-29   这个东西有点神奇,下载下来看看,呵呵... 45 楼 181054867 2011-06-29   超,做这个太简单啦!!! 46 楼 dfbb222222 2011-06-29   年前写过一个爬虫抓们爬sexinsex board 通宵开机扒网站资源 。 47 楼 lipeng88213 2011-06-29   a68091555 写道嘿嘿,刚才爬了下草榴的,有点意思

这个注意不错 48 楼 babylon3389 2011-06-29   哈哈,以前也搞过这类滴事情~ 49 楼 留恋蓝色 2011-06-29   ccxw1983 写道下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。

呵呵,跟我用的一样,也是htmlcleaner跟xpath

不过不会写通用性的,只会针对单个网站或者网页抓

热点排行