爬蟲學習筆記 -- 實戰某電影網（lxml庫版）

作者：之乎者也吧呀 2022-09-14 15:06:00

0x01 安裝lxml庫檔案

pip3 install lxml

0x02 初始化字元串

1、通過HTML類初始化字元串

from lxml import etree
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
print(html)
運作結果：<Element html at 0x17bf61e9d80>

0x03 擷取xpath路徑

1、右擊要擷取的字元串，選擇審查元素

2、右擊要擷取字元串這行，選擇複制，選擇複制Xpath

/html/body/div[2]/div/div[2]/ul/li[1]/h2/a

0x04 利用Xpath擷取電影名

from lxml import etree
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
res=html.xpath('/html/body/div[2]/div/div[2]/ul/li[1]/h2/a/text()')
print(res)
運作結果：['奇門暗刃']

1、text()擷取節點内容

2、"ul/li[1]"，這裡隻是擷取了第一個電影名字

3、因為有多個li節點，是以将下标1去了就可以擷取所有節點内容

res=html.xpath('/html/body/div[2]/div/div[2]/ul/li/h2/a/text()')

0x05 聲明

僅供安全研究與學習之用，若将工具做其他用途，由使用者承擔全部法律及連帶責任，作者不承擔任何法律及連帶責任。

歡迎關注程式設計者吧

爬蟲學習筆記 -- 實戰某電影網（lxml庫版）

繼續閱讀

SVM學習筆記（一）

閱讀筆記--java程式設計思想第四版 --接口嵌套

法理學學習筆記Day4——法律規則重點知識點法的微觀結構★★★★★（考察40次）（二級考點）法律規則（二級考點）1.法律

最大子段和問題（分治法和動态規劃）

#人教五上預習#知識點總結#學習打卡ing#學習筆記#假期學習

持續更新調研報告寫作資料，希望各位多多批評指正#寫材料#學習資料分享#學習筆記#每天學習一點點

android學習筆記3：存儲資料存儲 Key-Value 集資料儲存到檔案

安卓學習筆記（九）網絡程式設計網絡程式設計

安卓學習筆記（一） Activity篇

django短信驗證碼的後端實作

天池龍珠計劃Python訓練營-task2筆記清單元組字元串字典集合序列

2022秋招cpp相關面試總結（長期更新）1、記憶體對齊2、類的占用空間死鎖elf優化bin檔案c語言和c++中const差別sizeof原理malloc一塊記憶體free怎麼找到頭尾

2022秋招面試總結（cpp+java+測開）百度測開一面位元組後端一面蝦皮後端一面蝦皮後端二面

nagios服務端搭建

Apache 虛拟主機搭建過程

判斷浏覽器類型與版本以及ios安卓判别