天天看点

Python爬虫:scrapy框架Spider类参数设置Spider设置settings.py或者custom_settings

Spider设置

参数 说明 示例
name 爬虫名称,必须唯一 name = “myspider”
handle_httpstatus_list 需要处理的状态码 handle_httpstatus_list = [404]
download_delay 下载延时(单位:s秒) download_delay = 5
allowed_domains 域名限制 allowed_domains = [“baidu.com”]
custom_settings 用户设置,单独设置爬虫参数 custom_settings ={‘RETRY_TIMES’: 3}
start_urls 起始链接设置 start_urls = [“ http://www.baidu.com “]

settings.py或者custom_settings

USER_AGENT 请求头
ROBOTSTXT_OBEY = False 是否遵守robots协议
DOWNLOAD_DELAY = 2 同一个站点抓取延迟(秒s)
CONCURRENT_REQUESTS_PER_DOMAIN = 1 对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1 对同一个ip并发线程