爬虫程序提取页面有关问题！

2012-01-03

爬虫程序提取页面问题！！！！我用爬虫程序得到了一个HTML页面，如下：html head META HTTP-EQUIVRefresh

爬虫程序提取页面问题！！！！
我用爬虫程序得到了一个HTML页面，如下：
<html >
<head >
<META HTTP-EQUIV="Refresh" CONTENT="0;url=geren.asp;charset=gb2312" >
</head >
</html >
现在我想获取geren.asp页面，该如何处理，请各位高手给点意见！

[解决办法]
spiders
有3个URL列表的

等待列表，已搜列表，正在搜得列表

从正在搜列表里取1个地址开始抓网页，把该网页所有地址存在一个等待LIST里面（首先检查有没有重复地址并和已搜列表对比）

通过解析页面HTML得到URL地址，如：geren.asp

获取这个页面就是用SPIDER 抓当前URL/geren.asp

热点排行

myeclipse能启动tomcat5.5但是tomcat5.5
高手给讲讲oracle VS DB2的区别！该怎么
国际化的数据库实现思想
subsystem failed. Reason java.lang
js读取excel文件并显示
SSH 导入导出excel 哪位高手有这块的资料
替换字符中的关键字？解决方案
Struts2中<s:textfield >标签有没有只读
EXT3.0合并单元格的demo
怎么界面啊哪里有好的资料啊

Java Web开发

爬虫程序提取页面有关问题！