首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Java面试 >

有个有关问题关于java的主题爬虫

2012-04-23 
有个问题关于java的主题爬虫老师要求我们写一个java的主题爬虫,大致作用是爬一些服务外包网站上的项目信息

有个问题关于java的主题爬虫
老师要求我们写一个java的主题爬虫,大致作用是爬一些服务外包网站上的项目信息,比如项目名称,要求,联系方式等。我现在能做到的只是将整个网站的正文内容分文件下载下来。该如何像老师要求的那样只下载想要的文本内容,而直接忽略其他的文本内容呢?是根据html的标签来做?

[解决办法]
下下来过滤被,写个正则把标签去掉,url存队列,需要的内容再一匹配,直接存数据库了

热点排行