Python爬虫：scrapy框架Spider类参数设置Spider设置settings.py或者custom_settings

2021-11-22 23:50:00

Spider设置

参数	说明	示例
name	爬虫名称，必须唯一	name = “myspider”
handle_httpstatus_list	需要处理的状态码	handle_httpstatus_list = [404]
download_delay	下载延时（单位：s秒）	download_delay = 5
allowed_domains	域名限制	allowed_domains = [“baidu.com”]
custom_settings	用户设置，单独设置爬虫参数	custom_settings ={‘RETRY_TIMES’: 3}
start_urls	起始链接设置	start_urls = [“ http://www.baidu.com “]

settings.py或者custom_settings


USER_AGENT	请求头
ROBOTSTXT_OBEY = False	是否遵守robots协议
DOWNLOAD_DELAY = 2	同一个站点抓取延迟（秒s）
CONCURRENT_REQUESTS_PER_DOMAIN = 1	对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1	对同一个ip并发线程

数据采集 Python python数据写入数据python python指定数据 python数据选择 python数据持久

上一篇: Fiori navigation logic ( Route )

下一篇: Pyhton编程：collections集合模块命名元组双端队列(double-end queue)有序字典计数器

继续阅读