首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > VC/MFC >

论坛信息提取(网页内容分析),该如何处理

2013-01-05 
论坛信息提取(网页内容分析)想做一个论坛信息的提取,就拿天涯论坛来说!我想获取主贴标题,主贴内容,作者以

论坛信息提取(网页内容分析)
想做一个论坛信息的提取,就拿天涯论坛来说!
我想获取主贴标题,主贴内容,作者以及作者发帖时间
和后面所有跟帖的作者内容以及回帖日期!对于这样的网页内容改怎么分析
请达人们给个思路!或者提供一些资源!不胜感激!
[解决办法]
又见网页爬虫。。。
[解决办法]
解析论坛帖子列表页码,获取每个帖子的链接

然后访问每个帖子的链接,根据一定的模式解析其 主贴内容,作者以及作者发帖时间 以及回帖等...

vc的话一般用mshtml,或者urldownloadtofile + 正则解析

不过用python之类的脚本语言写起来会简单点
[解决办法]
我之前也做过网页爬虫,用的方法比较土,就是用CString的Find找">...<"这之间的内容,这个太山寨了,还是用正则表达式啊。。。
[解决办法]
xml 
[解决办法]
可以当初XML来解析,有很多XML类库,然后就需要根据你的网页来使用不同的逻辑顺序来解析html页面,获得你需要的对应字段的数据
[解决办法]
我觉得最好用IE的com接口
[解决办法]
感觉还是CString快,正则不一定方便。

[解决办法]
CString快,但是不太通用,,,,

热点排行