1, 在采集網頁,擷取滿足的條件時,比如采集一個清單的資料裡面的超連結a标簽,如下:
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczX0xiRGZkRGZ0Xy9GbvNGL2EzXlpXazxSNJRUT4tGRPVnRHplb1cVWxgmMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL0ADO5QTM0cTM5ATOwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
這個清單的html代碼如下:
是由兩個div組成的,是以要擷取這兩個清單的規則可以這樣寫:
page.getHtml().xpath("//div[@class='newsname_list' ]/ul/div | //div[@id='line_u12_0']").nodes();
用管道符|來分開。
2, 如果隻是屬性不同,可以or來過濾。比如要擷取某一個div,這個div的class有兩種情況,一種是class='listA',另外一種class='listB',擷取時,可以這樣寫:
page.getHtml.xpath("//div[@class='listA' or @class='listB']")