天天看點

scrapy實踐:headers僞造

在寫網絡爬蟲時,我們都需要僞裝headers來避免反爬,主要就是更改user-agent和refere。

使用requests或urllib未使用scrapy時,都是手動指定headers例如:

pcUserAgent是一個user-agent清單。

那使用scrapy架構時,僞裝headers有多種方法,這裡記錄一下如何利用Downloader Middleware中間件來設定。

(1)首先,在setting.py中加入user-agent清單

(2)其次,在middlewares.py中定義headers

(3)最後,在setting.py中啟用中間件