动态爬虫jsoup+jdic实现
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
?这段代码得到当前的html,然后交由jsoup 进行解析这个类是调用ie浏览器,执行javascript代码,可以不管
?
?
?
?
附件中有源码,eclipse导出
?
?
?
?
遗留问题
?
?
上面是当前代码,求更好的解决方案
?
现在取得当前的html使用了定时器,1秒后执行,感觉很不精确,有没有什么更好的方式,比如判断当前页面所有的内容都已经加载完了,其它的javascript都已经执行完了的代码?
at sun.awt.windows.WComponentPeer.hide(Native Method)
at java.awt.Component.removeNotify(Component.java:5979)
at org.jdesktop.jdic.browser.WebBrowser.access$201(Unknown Source)
at org.jdesktop.jdic.browser.WebBrowser$1.run(Unknown Source)
(这个输出后来查了一下,好像是我电脑系统的问题,少了微软的运行环境,
只输出“百度”或“智联”就没有这个Exception )
(2)用火狐(3.6.3)为默认浏览器
先输出了2行“isDefaultBrowserMozilla”
然后是
“Can't execute the native embedded browser. Error message: java.io.IOException: 文件名、目录名或卷标语法不正确。”
下面就终止了。
(3)一个问题 “图片搜索,快速保存所有的结果” 在什么地方体现出来?
学习中 谢谢。
3 楼 1202 2011-08-29 你好,我最近在学习使用jsoup,发现这样一个问题:
我像使用div.div.m_l_hot_im 来选取某个class为m_l_hot_im 的div,可结果是连class为div.m_l_hot_iml及div.m_l_hot_imr的所有的以div.m_l_hot_im 开头的都选择了,请问这是一个bug吗 4 楼 laitaiyang520 2011-12-20 1202 写道你好,我最近在学习使用jsoup,发现这样一个问题:
我像使用div.div.m_l_hot_im 来选取某个class为m_l_hot_im 的div,可结果是连class为div.m_l_hot_iml及div.m_l_hot_imr的所有的以div.m_l_hot_im 开头的都选择了,请问这是一个bug吗
不是,那相当于是一个模糊查询一样,用div[class=m_l_hot_im]就可以准确的选择到想要的数据模块