天天看點

爬蟲學習筆記 -- 實戰某電影網(lxml庫版)

作者:之乎者也吧呀

0x01 安裝lxml庫檔案

pip3 install lxml           
爬蟲學習筆記 -- 實戰某電影網(lxml庫版)

0x02 初始化字元串

1、通過HTML類初始化字元串

from lxml import etree
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
print(html)
運作結果:<Element html at 0x17bf61e9d80>           

0x03 擷取xpath路徑

1、右擊要擷取的字元串,選擇審查元素

爬蟲學習筆記 -- 實戰某電影網(lxml庫版)

2、右擊要擷取字元串這行,選擇複制,選擇複制Xpath

爬蟲學習筆記 -- 實戰某電影網(lxml庫版)
/html/body/div[2]/div/div[2]/ul/li[1]/h2/a           

0x04 利用Xpath擷取電影名

from lxml import etree
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
res=html.xpath('/html/body/div[2]/div/div[2]/ul/li[1]/h2/a/text()')
print(res)
運作結果:['奇門暗刃']           

1、text()擷取節點内容

2、"ul/li[1]",這裡隻是擷取了第一個電影名字

3、因為有多個li節點,是以将下标1去了就可以擷取所有節點内容

res=html.xpath('/html/body/div[2]/div/div[2]/ul/li/h2/a/text()')           

0x05 聲明

僅供安全研究與學習之用,若将工具做其他用途,由使用者承擔全部法律及連帶責任,作者不承擔任何法律及連帶責任。

歡迎關注程式設計者吧

爬蟲學習筆記 -- 實戰某電影網(lxml庫版)

繼續閱讀