首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C++ >

将网页转换成纯TXT,该怎么解决

2012-05-24 
将网页转换成纯TXT怎么样将一个HTML的简单网页内的标记过滤掉,保存为纯TXT文件(效果就好像是在网页上选择

将网页转换成纯TXT
怎么样将一个HTML的简单网页内的标记过滤掉,保存为纯TXT文件(效果就好像是在网页上选择了一块文字区域,然后粘贴到文本文档里面一样).
 最好哪位朋友可以提供出具体的实现,或者相关代码(限C++).
  如果没有,也可以大家集思广益,一起说说实现的思路~ :)

我下面附上一个类似的简单网页.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.6001.18148" name=GENERATOR></HEAD>
<BODY><PRE># 某银行系统历史交易

#  

# 账 号: [XXXXXXXXXXXXXXX 招商银行]

# 起始日期: [20070104] 终止日期: [20080103]

# ---------------------------------

# 帐号 日期 币种 支出 存入 余额  

  说明

# ---------------------------------

  622588010515236811; 20070104; 人民币; ; 3400.00;  

3879.59; ATM存款;
# ---------------------------------

# 支出合计: 78 笔,共 145,394.00 元

# 存入合计: 27 笔,共 178,493.09 元

# ---------------------------------

# 导出时间:[2008-01-03 08:59:25] 用户:某某

# 如果您有什么建议或者疑问,欢迎您来信! 

</PRE></BODY></HTML>


[解决办法]
每次用strtok查找符号<,找到匹配之后,再查找符号>,
中间的字符都不要,在这2个符号之外的都是网页的内容。
[解决办法]
针对特定样式的网页还可以,任意网页比较难。主要是考虑各种标记和关键词,情况很多。
xml的出现好像是为了解决电脑难处理的问题。
[解决办法]
如果是位置固定的几个标签可以考虑用dom、sax 等把html当作xml来处理。
[解决办法]
有意思,关注中~
[解决办法]
找个html解析库,把内容都拿出来啊
html解析参考
1、boost spirit,有例子已经做好的如何解析html;
2、mshtml parsing;
3、http://tidy.sourceforge.net/

[解决办法]
有现成的html2text,为什么要自己写。

[解决办法]
关注中

热点排行