首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Java Web开发 >

高手!去页面所有标签!然后去掉只留内容

2011-12-31 
请教各位高手!去页面所有标签!然后去掉只留内容!我现在面临的困难是:现在别人给我一段代码(以html代码为例

请教各位高手!去页面所有标签!然后去掉只留内容!
我现在面临的困难是:现在别人给我一段代码(以html代码为例),此段代码含有比较多的标签属性:例如 有如下代码片段:
<body>
 <h1>hello</h1> 
 <table name="tbName" border="1">
  <tr id="trId">
  <td>Cotent</td>
  </tr>
 </table>
</body>
我这是要获取其中的
  <body>
  <h1>
  </h1>
  <table name="tbName" border="1">
  <tr id="trId"> 
  <td>
  </td>
  </tr>
  </table>
  </body>
取出来这些标签之后再把这些标签去掉!也就是使之为空,只留其中的内容部分!有哪位高手有好的方法给与指教!小弟非常感激!

[解决办法]
str.replaceAll("<.?*>","");
[解决办法]
用正则应该可以,html,wml形式都差不多

Java code
 Pattern p = Pattern.compile("<[^>]+>|</[^>]+>",Pattern.CASE_INSENSITIVE ); String htmlContent = "...<body>.....</body>..."  Matcher m = p.matcher(htmlContent); String content = m.replaceAll(""); 

热点排行