首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Java Web开发 >

爬虫程序提取页面有关问题!

2012-01-03 
爬虫程序提取页面问题!!!!我用爬虫程序得到了一个HTML页面,如下:html head META HTTP-EQUIVRefresh

爬虫程序提取页面问题!!!!
我用爬虫程序得到了一个HTML页面,如下: 
  <html > 
  <head > 
  <META HTTP-EQUIV="Refresh" CONTENT="0;url=geren.asp;charset=gb2312" > 
  </head > 
  </html > 
现在我想获取geren.asp页面,该如何处理,请各位高手给点意见!

[解决办法]
spiders
有3个URL列表的

等待列表,已搜列表,正在搜得列表

从正在搜列表里取1个地址开始抓网页,把该网页所有地址存在一个等待LIST里面(首先检查有没有重复地址并和已搜列表对比)

通过解析页面HTML得到URL地址,如:geren.asp

获取这个页面就是用SPIDER 抓 当前URL/geren.asp 

热点排行