首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > .NET > C# >

新闻自动采集系统做完了,散分解决思路

2012-01-11 
新闻自动采集系统做完了,散分系统采用C#编写,需要.NETFramework2.0环境,可以按照你设定的规则采集不同网站

新闻自动采集系统做完了,散分
系统采用C#编写,需要.NET   Framework   2.0环境,可以按照你设定的规则采集不同网站的新闻,不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷,一是对分页的新闻网页无法提取;二是对一些需要用户登录的网页不能采集。需望高手指点。


[解决办法]
分页的还不知道怎么好处理
只有遍历以下链接了

用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
[解决办法]
还要了解人家做网页的习惯~~哈哈~~~
[解决办法]
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
[解决办法]
怎么做的,能把大体的思想说一下不
[解决办法]
对于分页的要看人家分页的方法,用遍历就比较通用。。

对于要用户名和密码的,实际是加了个权限,如果能绕过,就可以方便达到目的。不然只有用合法用户名和密码登陆。
[解决办法]
正在做这方面的.也搜集了比较多的资料.
系统已架起,正在优化...

[解决办法]
恭喜
[解决办法]
jf
[解决办法]
恭喜,JF
[解决办法]
TO:一是对分页的新闻网页无法提取

那也只能分析一下链接了,根据分页的网页URL的特点,来判断是否是同一则新闻...

TO:对一些需要用户登录的网页不能采集

这个没办法,你得知道登录的用户名和密码,才能进行采集...


另外恭喜一下,接分...
[解决办法]
我做了一个采集阿里巴巴企业信息的东东。具体思路如下:
首先搜索一个你想要的关键字获得列表,获取这个列表的HTML,然后用正则得到每个企业的公司主页链接,关于分页可以分析一下他的URL,其实只有一个变量,用一个循环就可以搞定。得到的链接放到一个TXT中,然后一行一行的读取,再次获得HTML,正则得到你需要的信息。后面的...
[解决办法]
楼主能对不同的新闻系统采集么?

[解决办法]
我现在研究搜索引擎方面的,不过刚起步...
[解决办法]
对每个不同页做不同的正则表达式
[解决办法]
没做过,想学习一下。
[解决办法]
JF,顶
[解决办法]

用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
[解决办法]
没做过,想学习一下
[解决办法]
jf ,还学习一下
[解决办法]
记号,学习.
[解决办法]
jf
[解决办法]
是不同的网页,比如新浪和163的新闻页格式应该是不一样的?
[解决办法]
jf
[解决办法]
没研究过这类项目,只开发一些常用的小应用系统,也一直想做点有意思的东西.学习
[解决办法]
jf
[解决办法]
jf
[解决办法]
加油,
恭喜。
------解决方案--------------------


谢谢.....
[解决办法]
用一个笨方法:
搜索源码中包含 <a href=#> 下一页 </a> 或> > 或2等带链接的文字,其实分页也就那么几种格式写发,你可以写个正则判断是否符合。一般不是下一页就是2或则> > 也许还有几种其他写发,我感觉这里用这个笨法应该还是比较有效和省事的
关于需要登陆的我就没办法了,总之不可能开发一个自动注册并登陆的程序,因为现在多数都有验证码,表单内容也不一样
[解决办法]
采用模拟登陆
[解决办法]
恭喜恭喜
接分了~~~~
[解决办法]
恭喜,接分
[解决办法]
UP
[解决办法]
恭喜 接分

热点排行