运用 HttpClient 和 HtmlParser 实现简易爬虫

2012-11-05

使用 HttpClient 和 HtmlParser 实现简易爬虫?这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使

使用 HttpClient 和 HtmlParser 实现简易爬虫

?
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用，在此基础上实现了一个简易的网络爬虫 (Crawler)，来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页，以及如何使用 HttpClient 来简化 Get 和 Post 请求操作，构建强大的网络应用程序。

回页首
?
?
?
这里值得注意的几个地方是：
设置连接超时和请求超时，这两个超时的意义不同，需要分别设置。响应状态码的处理。返回的结果可以为字节数组，也可以为 InputStream，而后者在网页内容数据量较大的时候推荐使用。
在处理返回结果的时候可以根据自己的需要，进行相应的处理。如笔者是需要保存网页
到本地，因此就可以写一个 saveToLocaleFile(byte[] data, String filePath) 的方法，将字节数组保存成本地文件。后续的简易爬虫部分会有相应的介绍。
?
简单强大的 StringBean
如果你想要网页中去掉所有的标签后剩下的文本，那就是用 StringBean 吧。以下简单的代码可以帮你解决这样的问题：
清单5
StringBean sb = new StringBean();
sb.setLinks(false);//设置结果中去点链接
sb.setURL(url);//设置你所需要滤掉网页标签的页面 url
System.out.println(sb.getStrings());//打印结果
HtmlParser 提供了强大的类库来处理网页，由于本文旨在简单的介绍，因此只是将与笔者后续爬虫部分有关的关键类库进行了示例说明。感兴趣的读者可以专门来研究一下 HtmlParser 更为强大的类库。
?
?
这些代码中关键的部分都在 HttpClient 和 HtmlParser 介绍中说明过了，其他部分也比较容易，请感兴趣的读者自行理解。
?
?
蒋宏伟是一名计算机专业的在校学生，在学习之余参与一些 JavaEE 系统的研究和开发工作。目前，他感兴趣的方向是 SOA 与 Web Service。可以通过 jianghongwei_tju@yahoo.com.cn 与其联系。

热点排行

CSS

运用 HttpClient 和 HtmlParser 实现简易爬虫