天天看点

scrapy实践:headers伪造

在写网络爬虫时,我们都需要伪装headers来避免反爬,主要就是更改user-agent和refere。

使用requests或urllib未使用scrapy时,都是手动指定headers例如:

pcUserAgent是一个user-agent列表。

那使用scrapy框架时,伪装headers有多种方法,这里记录一下如何利用Downloader Middleware中间件来设置。

(1)首先,在setting.py中加入user-agent列表

(2)其次,在middlewares.py中定义headers

(3)最后,在setting.py中启用中间件