JSOUP選擇器文法說明

jsoup 是一款基于Java 的HTML解析器，可直接解析某個URL位址或HTML文本内容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作資料。

jsoup的強大在于它對文檔元素的檢索，Select方法将傳回一個Elements集合，并提供一組方法來抽取和處理結果，要掌握Jsoup首先要熟悉它的選擇器文法。

1、Selector選擇器基本文法

tagname: 通過标簽查找元素，比如：a
ns|tag: 通過标簽在命名空間查找元素，比如：可以用 fb|name 文法來查找 <fb:name> 元素
#id: 通過ID查找元素，比如：#logo
.class: 通過class名稱查找元素，比如：.masthead
[attribute]: 利用屬性查找元素，比如：[href]
[^attr]: 利用屬性名字首來查找元素，比如：可以用[^data-] 來查找帶有HTML5 Dataset屬性的元素
[attr=value]: 利用屬性值來查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用比對屬性值開頭、結尾或包含屬性值來查找元素，比如：[href*=/path/]
[attr~=regex]: 利用屬性值比對正規表達式來查找元素，比如： img[src~=(?i).(png|jpe?g)]
*: 這個符号将比對所有元素

2、Selector選擇器組合使用文法

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意組合，比如：a[href].highlight
ancestor child: 查找某個元素下子元素，比如：可以用.body p 查找在”body”元素下的所有 p元素
parent > child: 查找某個父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标簽下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一個同級元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同級X元素，比如：h1 ~ p
el, el, el:多個選擇器組合，查找比對任一選擇器的唯一進制素，例如：div.masthead, div.logo

3、Selector僞選擇器文法

注意：上述僞選擇器索引是從0開始的，也就是說第一個元素索引值為0，第二個元素index為1等。