首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Java相关 >

JSOUP 如何避免转义字符

2013-07-20 
JSOUP 如何处理转义字符?比如我用JSOUP 爬到如下HTML,我如何解析?比如第一个元素,翻译过来是div classi

JSOUP 如何处理转义字符?
比如我用JSOUP 爬到如下HTML,我如何解析?
比如第一个元素,翻译过来是<div class="item-inner clearfix">xxxx</div>。这样我才能用Element.select("div[class=item-inner clearfix]"); 如果不翻译过来,就取不到这个元素了。如何解决?


&lt;div class=&quot;item-inner clearfix&quot;&gt;

&lt;div class=&quot;photo&quot; data-spm=&quot;1000248&quot;&gt;
&lt;a target=&quot;_blank&quot; href=&quot;http://dd.taobao.com/detail.htm?localstoreId=6f97a76d586e4cb383e669bc81923994&quot; &gt;
&lt;span&gt;       
&lt;img src=&quot;http://img3.tbcdn.cn:80/L1/76/600401658/41a0e57755f44c508fa46386342ff4e2_160x160.jpg&quot; alt=&quot;一茶一坐(金桥店)&quot;&gt;
&lt;/span
&lt;span class=&quot;index&quot;&gt;6&lt;/span
&lt;/a
&lt;/div
&lt;div class=&quot;info&quot;&gt;
&lt;div class=&quot;clearfix&quot; data-spm=&quot;1000256&quot;&gt;
&lt;a target=&quot;_blank&quot; href=&quot;http://dd.taobao.com/detail.htm?localstoreId=6f97a76d586e4cb383e669bc81923994&quot; class=&quot;name&quot;&gt;
一茶一坐(金桥店)
&lt;/a
&lt;a  href=&quot;http://bendi.koubei.com/shanghai/list--q-%D2%BB%B2%E8%D2%BB%D7%F8--isfd-1&quot; class=&quot; branch&quot;&gt;&lt;em&gt;分店&lt;/em&lt;/a
&lt;a target=&quot;_blank&quot; href=&quot;http://dd.taobao.com/detail.htm?localstoreId=6f97a76d586e4cb383e669bc81923994&quot; &gt;
&lt;img src=&quot;http://img03.taobaocdn.com/tps/i3/T1wEaPXq8dXXcKFhzf-39-14.gif&quot;&gt;
&lt;/a
    &lt;a target=&quot;_blank&quot; href=&quot;http://waimai.taobao.com/shop_detail.htm?shopid=46669&amp;city=310100&quot; &gt;
    &lt;img src=&quot;http://img02.taobaocdn.com/tps/i2/T1IZnfXedqXXcVIxzf-39-14.png&quot; alt=&quot;&quot;&gt;
    &lt;/a

&lt;/div
&lt;div class=&quot;more-info clearfix&quot;&gt;
    &lt;div class=&quot;place-tag&quot;&gt;
    &lt;div class=&quot;pingfen&quot;&gt;


                                                                   &lt;span&gt;&lt;label&gt;服务:&lt;/label&lt;em&gt;4&lt;/em&lt;/span
                                                                                                               &lt;span&gt;&lt;label&gt;口味:&lt;/label&lt;em&gt;4&lt;/em&lt;/span
                                                                                                               &lt;span&gt;&lt;label&gt;环境:&lt;/label&lt;em&gt;4&lt;/em&lt;/span
                                                                                                               &lt;span&gt;&lt;label&gt;性价比:&lt;/label&lt;em&gt;4&lt;/em&lt;/span
                                                    &lt;/div


&lt;p&gt;&lt;span class=&quot;place&quot;&gt;地址:&lt;/span浦东新区张杨路3611号金桥国...&lt;/p

    &lt;div class=&quot;tags&quot; data-spm=&quot;1000249&quot;&gt;
    &lt;span class=&quot;tag&quot;&gt;标签:&lt;/span
    &lt;p&gt;
        &lt;a href=&quot;http://bendi.koubei.com/shanghai/list--q-%C8%E2%D4%EF&quot;&gt;肉燥&lt;/a
        &lt;a href=&quot;http://bendi.koubei.com/shanghai/list--q-%C2%E9%D3%CD%BC%A6%EC%D2&quot;&gt;麻油鸡煲&lt;/a
        &lt;a href=&quot;http://bendi.koubei.com/shanghai/list--q-%BA%EC%B6%B9%C5%D9%B1%F9&quot;&gt;红豆刨冰&lt;/a
        &lt;a href=&quot;http://bendi.koubei.com/shanghai/list--q-%CC%BC%C9%D5%D6%ED%BE%B1%C8%E2&quot;&gt;碳烧猪颈肉&lt;/a
        &lt;/p
    &lt;/div
&lt;p data-spm=&quot;1000252&quot;&gt;
               &lt;/p

&lt;/div

                                                        &lt;div class=&quot;price&quot;&gt;
    &lt;span class=&quot;g_price g_price-highlight&quot; style=&quot;font-size:12px;&quot;&gt;
        &lt;span style=&quot;color:#FD7320&quot;&gt;&yen;&lt;/span
        &lt;strong style=&quot;background:none;font-size:12px;color:#FD7320;padding:0px;&quot;&gt;58&lt;/strong
    &lt;/span
    &lt;/div
        &lt;div class=&quot;dp&quot;&gt;
        &lt;p data-spm=&quot;1000250&quot;&gt;


    好评:
    &lt;a target=&quot;_blank&quot; href=&quot;http://detail.koubei.com/store/detail--id-6f97a76d586e4cb383e669bc81923994&quot;&gt;&lt;em&gt;100%&lt;/em&lt;/a(&lt;a href=&quot;http://detail.koubei.com/store/detail--id-6f97a76d586e4cb383e669bc81923994&quot; target=&quot;_blank&quot;&gt;3&lt;/a)
    &lt;/p
&lt;!--点菜按钮--&gt;
&lt;div class=&quot;orderDishes_btn&quot;&gt;&lt;a href=&quot;http://dd.taobao.com/detail.htm?localstoreId=6f97a76d586e4cb383e669bc81923994&quot; target=&quot;_blank&quot;&gt;点&nbsp;&nbsp;&nbsp;菜 &lt;/a&lt;/div
    &lt;/div

&lt;/div
&lt;/div

&lt;/div


[解决办法]

import org.apache.commons.lang.StringEscapeUtils;

public class MainClass {
    public static void main(String[] args) {
        String strHTMLInput = "<P>MyName<P>";
        String strEscapeHTML = StringEscapeUtils.escapeHtml(strHTMLInput);
        String strUnEscapeHTML = StringEscapeUtils.unescapeHtml(strEscapeHTML);
        System.out.println("Escaped HTML >>> " + strEscapeHTML);
        System.out.println("UnEscaped HTML >>> " + strUnEscapeHTML);
    }
}

热点排行