网页抓取时,页面包含的url的处理
页面上的url形式多样,建议采用java.net.URL 进行处理:
for (Element link : links) {//System.out.println();String sLink = link.attr("href").trim();//logger.info("sLink: "+sLink);if(sLink==null || sLink.trim().equals("")) continue;try {URL linkUrl = new URL(urlEntry,sLink);// 链接的主机头和 Entry 的主机头互相不包含,说明不是在同一个网站里面,丢弃。if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1&& linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue;sLink = linkUrl + ""; // do something here} catch (MalformedURLException e) {continue;}}