利用Jsoup解析HTML

2011-01-24 12:51:26

最近又要做html内容抽取，這次打算嘗試一下除了用正規表達式以外的其他方式。自然第一個想到的就是HtmlParser，結果找到了以後發現最近的更新還是在06年，汗！這個時候很意外的發現了Jsoup，試用了一下感覺相當清爽，推薦一下。

如果你很有興趣，直接去官方網站看下說明文檔，位址是http://jsoup.org/cookbook/。我這裡給個小例子，目的是從下文中抽取出标題，大家可以看一下他的類jQuery文法。

<div class="artHead">
<div>
<span class="artType01" style="margin-right: 5px;"><a href="javascript:void(0)">原創</a></span>
<h3 class="artTitle"><a href="/2431658/483361">JAVA程式記憶體溢出問題的分析</a>
<a href="http://blog.51cto.com/artcommend" target="_blank"><img src="https://s4.51cto.com/image/skin/34/indextj.gif" width="15" height="15" /></a>
</h3>
</div>

這個内容是從我部落格首頁上摘取的，是以直接打開這個頁面進行抽取，測試代碼如下：

繼續閱讀