正文抽取中网页内容类型判断,该如何解决

2012-04-28

正文抽取中网页内容类型判断最近在写一个正文抽取的程序，是基于统计和一些规则来处理的，效果还凑和，但还是

正文抽取中网页内容类型判断
最近在写一个正文抽取的程序，是基于统计和一些规则来处理的，效果还凑和，但还是有一些杂数据会出现
我现在想将网页类型分类，提高准确度，比如 :

1 新闻类型
2 论坛类型
3 博客类型
4 其他。。。

我现在想问的是网页类型如何判断，或者这种方法不好给点新思路。谢谢

[解决办法]
从网页URL里面判断？
[解决办法]
通过页面数据关键字判断