webmagic xpath滿足多個條件抽取

2023-03-10 13:13:58

1, 在采集網頁，擷取滿足的條件時，比如采集一個清單的資料裡面的超連結a标簽，如下：

這個清單的html代碼如下：

webmagic xpath滿足多個條件抽取

是由兩個div組成的，是以要擷取這兩個清單的規則可以這樣寫：

page.getHtml().xpath("//div[@class='newsname_list' ]/ul/div | //div[@id='line_u12_0']").nodes();

用管道符|來分開。

2, 如果隻是屬性不同，可以or來過濾。比如要擷取某一個div，這個div的class有兩種情況，一種是class='listA',另外一種class='listB',擷取時，可以這樣寫：

page.getHtml.xpath("//div[@class='listA' or @class='listB']")

繼續閱讀