在写网络爬虫时,我们都需要伪装headers来避免反爬,主要就是更改user-agent和refere。
使用requests或urllib未使用scrapy时,都是手动指定headers例如:
pcUserAgent是一个user-agent列表。
那使用scrapy框架时,伪装headers有多种方法,这里记录一下如何利用Downloader Middleware中间件来设置。
(1)首先,在setting.py中加入user-agent列表
(2)其次,在middlewares.py中定义headers
(3)最后,在setting.py中启用中间件