首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > .NET > C# >

httpclient抓取百度结果页面数据错误,高分

2012-09-14 
httpclient抓取百度结果页面数据异常,高分求助本人做了个站长工具,目的是获取关键词在百度的排名.主要原理

httpclient抓取百度结果页面数据异常,高分求助
本人做了个站长工具,目的是获取关键词在百度的排名.主要原理是获取百度结果页面html源代码并分析。
百度结果页面是下面这个:
http://www.baidu.com/s?wd=csdn&rn=100

没有使用webclient类,使用的是一个网友封装的httpclient类,来自http://www.cnblogs.com/deerchao/archive/2007/08/09/849361.html

以前一直运行良好,没出过什么大问题。


前段时间3sb大战,百度不知道调整了什么,现在获取的 http://www.baidu.com/s?wd=csdn&rn=100 页面html源代码残缺不全:

<!DOCTYPE html><!--STATUS OK-->
...
...
...
'y':'F874FB57' }" href="http://www.baidu.com/link?
url=bdc29e59ed3b794b1e7db22cbdbcbd9f9acac19f6c0aa3ed218bb790f48053
227b04b2fe20d3bfd631e10f917cedde03629e4041a
c7c97b0b749efab0c187a50833570dcd5e6b6c3e5646ff0d4e0d3137f46034631
c28378bb7c4e5a9aa8d261df4347630c50c0d9f80192
c9c30b67cf398c23a7d0a0952a17554bc207e247c2f26ab71012c94336e55fb3fb
2bc092bde2d6e55ea4033fa2ec2167547947b523e34
cdd2cd9f00e3d4cc300b3d6e7facc22bc045289ac295795bb69a108ff66f0d1cf3
d143fd

明显看到最后代码是被截断了。

然后用asp 和 php 测试了一下,结果类似,html都是不全。
不过用浏览器测试,是没问题的。

求各位大神帮忙解答,先奉送100分,不够再加。

[解决办法]
抓浏览器的的发送包,跟你自己的对比下,估计是你请求信息的问题
[解决办法]
火狐下,HttpFox
[解决办法]
+1

探讨
火狐下,HttpFox

[解决办法]
浏览器 能做的 我们都能做。。干扰就是验证码
[解决办法]
探讨
...
另外,我用的类对底层封装的比较好,看不到我软件发包情况。请问有没有什么软件可以检测我这软件的发包?

热点排行