如何得到一个html标签中的文本
例如 <h1 id="artibodyTitle" pid="1" tid="1" did="24440749" fid="1666">人民日报评赖昌星案:展现依法治国与保障人权</h1> 如何得到“人民日报评赖昌星案:展现依法治国与保障人权”呢?
或者<span id="title">捐亡儿全部器官救5人 深圳“义举妈妈”感动网友</span>如何得到 “捐亡儿全部器官救5人 深圳“义举妈妈”感动网友” 呢?
请大神们给个通用的方法吧。
[解决办法]
document.getElementById("artibodyTitle").innerHTML
[解决办法]
Parser parser = new Parser("http://www.baidu.com");HtmlPage htmlPage = new HtmlPage(parser);parser.visitAllNodesWith(htmlPage);NodeList nodeList = htmlPage.getBody();NodeFilter spanFilter = new NodeClassFilter(Span.class);//NodeFilter tableFilter = new NodeClassFilter(TableTag.class);OrFilter orFilter = new OrFilter();orFilter.setPredicates(new NodeFilter[] { spanFilter });//orFilter.setPredicates(new NodeFilter[] { spanFilter,tableFilter });nodeList = nodeList.extractAllNodesThatMatch(orFilter,true);Node[] nodeArray = nodeList.toNodeArray();for(Node node : nodeArray ){ Span sp=(Span)node; String spanId = span.getAttribute("id"); if("title".equals(spanId))){ parser.setInputHTML(tag.toHtml()); String tempStr = getHtmlAsNoTag(parser); }}............public String getHtmlAsNoTag(Parser parser){ try { StringBean sb = new StringBean(); // 设置不需要得到页面所包含的链接信息 sb.setLinks(false); // 设置将不间断空格由正规空格所替代 sb.setReplaceNonBreakingSpaces(true); // 设置将一序列空格由一个单一空格所代替 sb.setCollapse(true); parser.visitAllNodesWith(sb); return sb.getStrings(); } catch (ParserException e) { e.printStackTrace(); } return ""; }