激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|

服務器之家 - 編程語言 - JAVA教程 - crawler4j抓取頁面使用jsoup解析html時的解決方法

crawler4j抓取頁面使用jsoup解析html時的解決方法

2019-11-18 14:34Java教程網 JAVA教程

crawler4j對response沒有指定編碼的頁面,解析成亂碼,很讓人煩惱,下面給出解決方法,需要的朋友可以參考下

crawler4j對已有編碼的頁面抓取效果不錯,用html">jsoup解析,很多會jquery的程序員都可以操作。但是,crawler4j對response沒有指定編碼的頁面,解析成亂碼,很讓人煩惱。在找了苦悶之中,無意間發現一年代已久的博文,可以解決問題,修改 Page.load() 中的 contentData 編碼即可,這讓我心中頓時舒坦了很多,接下來的問題都引刃而解了。

 

復制代碼代碼如下:

public void load(HttpEntity entity) throws Exception {
 contentType = null;  
    Header type = entity.getContentType();  
    if (type != null) {  
        contentType = type.getValue();  
    }  

    contentEncoding = null;  
    Header encoding = entity.getContentEncoding();  
    if (encoding != null) {  
        contentEncoding = encoding.getValue();  
    }  

    Charset charset = ContentType.getOrDefault(entity).getCharset();  
    if (charset != null) {  
        contentCharset = charset.displayName();   
    }else{
     contentCharset = "utf-8";
    }

   //源碼
   //contentData = EntityUtils.toByteArray(entity);  
    //修改后的代碼
    contentData = EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 一级黄色片在线看 | 一本在线高清码电影 | 国产亚洲精品久久午夜玫瑰园 | 伊人成人免费视频 | 国产精品久久久久久久久久了 | 国产美女爽到喷白浆的 | 一级毛片免费高清 | 羞羞的视频在线观看 | 久久精品视频黄色 | 一区二区久久久久草草 | 欧美一区二区三区免费观看 | 91成人精品 | 国产精品久久久久久久亚洲按摩 | 日本黄免费 | 成人一级视频 | 国产精品久久久久国产精品三级 | av电影网站在线 | 色无极影院亚洲 | 久久亚洲美女视频 | 国产免费久久久久 | 国产精品久久久久久久久久电影 | 美女污污视频在线观看 | 亚洲人成网站免费播放 | 99国内精品| 亚洲精品在线观看网站 | 免费视频www在线观看 | 欧美成人性生活片 | 国产精品自在线拍 | 懂色av懂色aⅴ精彩av | 得得啪在线视频 | 精品国产看高清国产毛片 | 黄色免费av | 在线观看精品视频 | 黄色电影免费网址 | 日本精品久久久一区二区三区 | 黄色网战入口 | 久久精品国产99国产精品亚洲 | 国产精品成年片在线观看, 激情小说另类 | 国产人成免费爽爽爽视频 | 91av99| 日韩黄色av |