Jsoup网页内容抓取分析(1)
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);//分析文档,使用doc.toString()可以转为文本Element body=doc.body();//获取body片段,使用body.toString()可以转为文本
? ? ?
? ? ? 获取方式:1.从本地文件加载 ? 2.根据url地址获取
?
? ? ?
/**使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法 *其中baseUri参数用于解决文件中URLs是相对路径的问题。 *如果不需要可以传入一个空的字符串。 */File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");??
/** *根据url直接获取内容,可以加入超时,get方法不行,就用post方法 *我在实际应用中,出现404,405,504等错误信息 *将get改为post就可以,或者反过来改 *如果等以后弄明白了,再来解释清楚 */Document doc1 = Jsoup.connect("http://www.hao123.com/").get();String title = doc1.title(); //获取网页的标题String content=doc1.toString();//将网页转为文本Document doc2 = Jsoup.connect("http://www.hao123.com") .data("query", "Java")//请求参数 .userAgent("Mozilla")//设置urer-agent .cookie("auth", "token")//设置cookie .timeout(50000)//设置连接超时 .post();//或者改为get?
?
?
?