天天看點

webmagic xpath滿足多個條件抽取

1, 在采集網頁,擷取滿足的條件時,比如采集一個清單的資料裡面的超連結a标簽,如下:

webmagic xpath滿足多個條件抽取

這個清單的html代碼如下:

webmagic xpath滿足多個條件抽取

是由兩個div組成的,是以要擷取這兩個清單的規則可以這樣寫:

page.getHtml().xpath("//div[@class='newsname_list' ]/ul/div | //div[@id='line_u12_0']").nodes();
           

用管道符|來分開。

2, 如果隻是屬性不同,可以or來過濾。比如要擷取某一個div,這個div的class有兩種情況,一種是class='listA',另外一種class='listB',擷取時,可以這樣寫:

page.getHtml.xpath("//div[@class='listA' or @class='listB']")

繼續閱讀