新闻自动采集系统做完了，散分解决思路

新闻自动采集系统做完了，散分系统采用C#编写，需要.NETFramework2.0环境，可以按照你设定的规则采集不同网站

新闻自动采集系统做完了，散分
系统采用C#编写，需要.NET Framework 2.0环境，可以按照你设定的规则采集不同网站的新闻，不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷，一是对分页的新闻网页无法提取；二是对一些需要用户登录的网页不能采集。需望高手指点。

[解决办法]
分页的还不知道怎么好处理
只有遍历以下链接了

用户登录那种，最好程序内嵌一对用户名和密码
提交后去抓新闻
[解决办法]
还要了解人家做网页的习惯~~哈哈~~~
[解决办法]
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
[解决办法]
怎么做的,能把大体的思想说一下不
[解决办法]
对于分页的要看人家分页的方法，用遍历就比较通用。。

对于要用户名和密码的，实际是加了个权限，如果能绕过，就可以方便达到目的。不然只有用合法用户名和密码登陆。
[解决办法]
正在做这方面的.也搜集了比较多的资料.
系统已架起,正在优化...

[解决办法]
恭喜
[解决办法]
jf
[解决办法]
恭喜，JF
[解决办法]
TO:一是对分页的新闻网页无法提取

那也只能分析一下链接了,根据分页的网页URL的特点,来判断是否是同一则新闻...

TO:对一些需要用户登录的网页不能采集

这个没办法,你得知道登录的用户名和密码,才能进行采集...

另外恭喜一下,接分...
[解决办法]
我做了一个采集阿里巴巴企业信息的东东。具体思路如下：
首先搜索一个你想要的关键字获得列表，获取这个列表的HTML，然后用正则得到每个企业的公司主页链接，关于分页可以分析一下他的URL，其实只有一个变量，用一个循环就可以搞定。得到的链接放到一个TXT中，然后一行一行的读取，再次获得HTML，正则得到你需要的信息。后面的...
[解决办法]
楼主能对不同的新闻系统采集么?

[解决办法]
我现在研究搜索引擎方面的,不过刚起步...
[解决办法]
对每个不同页做不同的正则表达式
[解决办法]
没做过，想学习一下。
[解决办法]
JF,顶
[解决办法]

用户登录那种，最好程序内嵌一对用户名和密码
提交后去抓新闻
[解决办法]
没做过，想学习一下
[解决办法]
jf ,还学习一下
[解决办法]
记号,学习.
[解决办法]
jf
[解决办法]
是不同的网页,比如新浪和163的新闻页格式应该是不一样的?
[解决办法]
jf
[解决办法]
没研究过这类项目,只开发一些常用的小应用系统,也一直想做点有意思的东西.学习
[解决办法]
jf
[解决办法]
jf
[解决办法]
加油，
恭喜。
------解决方案--------------------

谢谢.....
[解决办法]
用一个笨方法：
搜索源码中包含 <a href=#> 下一页 </a> 或> > 或2等带链接的文字，其实分页也就那么几种格式写发，你可以写个正则判断是否符合。一般不是下一页就是2或则> > 也许还有几种其他写发，我感觉这里用这个笨法应该还是比较有效和省事的
关于需要登陆的我就没办法了，总之不可能开发一个自动注册并登陆的程序，因为现在多数都有验证码，表单内容也不一样
[解决办法]
采用模拟登陆
[解决办法]
恭喜恭喜
接分了~~~~
[解决办法]
恭喜,接分
[解决办法]
UP
[解决办法]
恭喜接分