天天看點

HtmlCleaner Html文檔解析器

       HtmlCleaner 是一個開源的Java 語言的Html 文檔解析器。HtmlCleaner 能夠重新整理HTML文檔的每個元素并生成結構良好 (Well-Formed )的 HTML 文檔。預設它遵循的規則是類似于大部份web浏覽器為創文檔對象模型所使用的規則。然而,使用者可以提供自定義tag和規則組來進行過濾和比對。它被設計的 小,快速,靈活而且獨立。HtmlCleaner 也可用在Java代碼中,當指令行工具或Ant任務。 解析後程式設計輕量級文檔對象,能夠很容易的被轉換到DOM 或者JDom 标準文檔,或者通過各種方式(壓縮,列印)連續輸出XML 。

新版本的重要功能更新包括:

  1.HtmlCleaner 的文檔對象模型現在擁有了一些函數,處理節點和屬性,是以現在在序列化之前搜尋或者編輯是非常容易的。   

      2.提供基本HtmlCleaner DOM 的XPath 支援

  3.使用XML配置溫江讓建立定制tag 變得更加容易

  4.修複多個bug 以及API改進

爬蟲爬下來的檔案,用HtmlCleaner  解析,速度非常快,比正則查找,Dom快了很多。