将网页转换成纯TXT
怎么样将一个HTML的简单网页内的标记过滤掉,保存为纯TXT文件(效果就好像是在网页上选择了一块文字区域,然后粘贴到文本文档里面一样).
最好哪位朋友可以提供出具体的实现,或者相关代码(限C++).
如果没有,也可以大家集思广益,一起说说实现的思路~ :)
我下面附上一个类似的简单网页.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.6001.18148" name=GENERATOR></HEAD>
<BODY><PRE># 某银行系统历史交易
#
# 账 号: [XXXXXXXXXXXXXXX 招商银行]
# 起始日期: [20070104] 终止日期: [20080103]
# ---------------------------------
# 帐号 日期 币种 支出 存入 余额
说明
# ---------------------------------
622588010515236811; 20070104; 人民币; ; 3400.00;
3879.59; ATM存款;
# ---------------------------------
# 支出合计: 78 笔,共 145,394.00 元
# 存入合计: 27 笔,共 178,493.09 元
# ---------------------------------
# 导出时间:[2008-01-03 08:59:25] 用户:某某
# 如果您有什么建议或者疑问,欢迎您来信!
</PRE></BODY></HTML>
[解决办法]
每次用strtok查找符号<,找到匹配之后,再查找符号>,
中间的字符都不要,在这2个符号之外的都是网页的内容。
[解决办法]
针对特定样式的网页还可以,任意网页比较难。主要是考虑各种标记和关键词,情况很多。
xml的出现好像是为了解决电脑难处理的问题。
[解决办法]
如果是位置固定的几个标签可以考虑用dom、sax 等把html当作xml来处理。
[解决办法]
有意思,关注中~
[解决办法]
找个html解析库,把内容都拿出来啊
html解析参考
1、boost spirit,有例子已经做好的如何解析html;
2、mshtml parsing;
3、http://tidy.sourceforge.net/
[解决办法]
有现成的html2text,为什么要自己写。
[解决办法]
关注中