htmlparser使用上的一些小疑问
还记得一年前对网页抓取感兴趣,自己写正则抓取什么网页链接,图片链接之类的,都是用的纯java se的东西,当年有个叫huner的兄弟就推荐我用htmlparser来搞,可惜自己水平不够,完全不知道咋用,一年后水平略有上升,终于能使用的比较顺手了,学习的历程啊。。。
使用中有几个小问题,不知道htmlparser本身有没有提供一些解决办法?话说API这东西不好搞啊,能读懂,但就是找不到自己需要的解决办法在哪,真是愁啊。。。特此找各位高人询问下解决思路
1、htmlparser没有对提取到的节点做排重,不知道有没有方法可以实现?比如我添加了2个<a href=www.csdn.net>csdn</a>就会都抓取下来,使用的代码
Parser parser = Parser.createParser("http://www.xxx.com");NodeFilter filterA = new TagNameFilter("a");NodeList nodes = parser.extractAllNodesThatMatch(filterA);for (int i = 0; i < nodes.size(); i++) { Node textnode = (Node) nodes.elementAt(i);System.out.println("toHtml:"+textnode.toHtml()); }