首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

网页抓取时,页面包孕的url的处理

2012-09-02 
网页抓取时,页面包含的url的处理页面上的url形式多样,建议采用java.net.URL 进行处理:for (Element link :

网页抓取时,页面包含的url的处理
页面上的url形式多样,建议采用java.net.URL 进行处理:

for (Element link : links) {//System.out.println();String sLink = link.attr("href").trim();//logger.info("sLink: "+sLink);if(sLink==null || sLink.trim().equals("")) continue;try {URL linkUrl = new URL(urlEntry,sLink);// 链接的主机头和 Entry 的主机头互相不包含,说明不是在同一个网站里面,丢弃。if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1&& linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue;sLink = linkUrl + "";                                        // do something here} catch (MalformedURLException e) {continue;}}

热点排行