天天看點

Java使用Jsoup爬蟲擷取網站内容(二)Jsoup介紹Jsoup

Jsoup

Jsoup是可以對擷取到的html頁面和URL位址進行解析,并且可以通過DOM,CSS的方式以及類似于jQuery的方式來操作資料的Java的html解析器。

Jsoup也可以用于操作HTML的元素 和 屬性。

方法介紹

Jsoup可以通過設定URL和逾時時間的方式對指定位址進行解析,并獲得一個Document對象。也可以通過檔案的形式和編碼方式對文檔檔案進行解析

1.通過位址和逾時時間進行解析

public static Document parse(URL url, int timeoutMillis) throws IOException {
        Connection con = HttpConnection.connect(url);
        con.timeout(timeoutMillis);
        return con.get();
    }
           

2.通過檔案和編碼格式進行解析

public static Document parse(File in, String charsetName) throws IOException {
        return DataUtil.load(in, charsetName, in.getAbsolutePath());
    }
           

繼續閱讀