首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > J2EE开发 >

爬虫提取网页上的数据,该如何解决

2012-01-18 
爬虫提取网页上的数据爬虫提取网页上的数据 谢谢,重谢,有解决方法马上结贴[解决办法]首先你得先控制你要截

爬虫提取网页上的数据
爬虫提取网页上的数据 谢谢,重谢,有解决方法马上结贴

[解决办法]
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是<div class=title>这是标题</div>
那么你的标题截取就应该从<div class=title>开始....</div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
[解决办法]
网络爬虫,不停的在网络上爬,然后建立索引你搜索的时候是到索引库中去找的,直接根绝关键词找到相应的索引.

兴趣可以看一下Lucene(Java的,相应的有Lucene.NET)
[解决办法]
是做搜索还是采集
搜索用LUCENE
采集用HTTPCLIENT
[解决办法]
java有个htmlPase类可以很方便的操作网页数据
给你个地址 自己看吧
http://hi.baidu.com/shenxiaolei_it/blog/item/bd41f3fb78f913126d22eb50.html
[解决办法]
http://www.locoy.com/locoy/2008/0123/down-55.html这是一个很好的采集器..你可以下下来用用..看看人家是怎么做的
jf..
jf
jf
jf.......................

热点排行