首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > JavaScript >

js经过什么算法可以获取页面文章正文

2013-03-28 
js通过什么算法可以获取页面文章正文现在想做一个应用,通过js对网页的便利自动识别出那部分是文章正文。大

js通过什么算法可以获取页面文章正文
现在想做一个应用,通过js对网页的便利自动识别出那部分是文章正文。大家有什么好的算法实现吗? 算法
[解决办法]
这怎么自动识别?肯定得你自己对html解析啊
[解决办法]
爬虫应用么~
不同的网页配置不同的正则,匹配分析。
[解决办法]
Regex 太阳,不够字数
[解决办法]
抓取内容,得根据内容的格式来看啊,

各站有自己的格式,视情况而定。

一般正文的标题 用 H1,看能利用起来不
[解决办法]
用div布局的页面,文章正文都包含在<p></p> 标签里
遍历出所有<p></p>的内容就好了
有特殊情况的用table布局,这时不好分辨
不知道楼主针对的哪些网站,最好有针对性

热点排行