scrapy-redis学习记录(一)

最近在搞爬虫，总听说

scrapy

多么多么强大，个人认为初学者先自己去理解爬虫的几个重要的点，手动去写爬虫，等到熟悉过后觉得没有提升了再去看框架之类的东西。这里简单介绍下(把CSDN上边一位大侠的文章的记录在此)。

scrapy

是

python

里面一个非常完善的爬虫框架，实现了非常多的功能，比如内存检测，对象引用查看，命令行，shell终端，还有各种中间件和扩展等，相信开发过scrapy的朋友都会觉得这个框架非常的强大。但是它有一个致命的缺点，不支持分布式。

所以本文介绍的是

scrapy_redis

，继承了

scrapy

的所有优点，还支持分布式。

这里跳过最基础的安装，直接记录原理

1.scrapy_redis原理

①.spider解析下载器下载下来的response，返回item或者links

②.item或者links经过spidermiddleware的process_spider_out()方法，交给engine

③.engine将item交给itempipeline,将links交给调度器

④.在调度器中，先将request对象利用scrapy内置的指纹函数，生成一个指纹对象

⑤.如果request对象中的dont_filter参数设置为False,并且该request对象的指纹不在信息指纹的队列中，那么就把该request对象放到优先级的队列中

⑥.从优先级队列中获取request对象，交给engine

⑦.engine将request对象交给下载器下载，期间会通过downloadmiddleware的process_request()方法

⑧.下载器完成下载，获得response对象，将该对象交给engine,期间会通过downloadmiddleware的process_response()方法

⑨.engine将获得的response对象交给spider进行解析，期间会经过spidermiddleware的process_spider_input()方法

⑩.从第一步开始循环

上面的十个步骤就是scrapy-redis的整体框架，与scrapy相差无几。本质的区别就是，将scrapy的内置的去重的队列和待抓取的request队列换成了redis的集合。就这一个小小的改动，就使得了scrapy-redis支持了分布式抓取。

在redis的服务器中，会至少存在三个队列：

用于请求对象去重的集合，队列的名称为spider.name:dupefilter，其中spider.name就是我们自定义的spider的名字，下同。
待抓取的request对象的有序集合，队列的名称为spider.name:requests
保存提取到item的列表，队列的名称为spider.name:items
可能存在存放初始url的集合或者是列表，队列的名称可能是spider.name:start_urls

自定义了一个spider,name属性为pagespider。当开始运行这个spider的时候，就可以看到在redis的服务器中出现了三个队列的名字，分别用来去重request对象，存储提取到的item，存放待抓取的request对象。

那至于spider.name:start_urls这个队列，里面存放的是我们第一次启动爬虫存放的url，注意是url，而不是scrapy.http.Request对象。如果我们只向这个队列中存放一条初始的url，那么这个队列只会短暂的存在。因为redis中，如果一个key中没有数据了，那么这个key也就消失了。

当然，如果你本身就很了解redis的话，这对于你来说，根本就没有任何难度。

2.编写scrapy_redis爬虫

在编写基于scrapy-redis的爬虫的时候，我们既可以继承自

scrapy.spiders.Spider

这个类，又或者是

scrapy.spiders.CrawlSpider

，也可以继承自scrapy-redis的类，比如

scrapy_redis.spiders.RedisSpider

。

子类化scrapy自身的类时，还是按照scrapy给出的列子一样，非常的简单：

from scrapy.spiders import Spider

class PageSpider(Spider):
    name = 'pagespider'
    allowed_domains = ['www.example.com']
    start_urls = ['http://www.example.com']

    def parse(self, response):
        pass

这里有一点需要明确一点，当我们没有为request对象显示的指定一个回调函数时，会使用默认的parse()作为回调函数。

如果我们是子类化scrapy-redis的spider时，情况有些许的不同:

from scrapy_redis,spiders import RedisSpider

class PageSpider(RedisSpider):
    name = 'pagespider'
    redis_key = 'myspider:start_urls'
    allowed_domains = ['www.example.com']

    def parse(self, response):
        pass

这里我们并没有指定初始url，所以这就需要我们手动的往redis的初始url队列中添加url,队列的名称为myspider:start_urls.默认情况下我们采用集合的命令进行添加，要不然会报错的。

通过往这个队列中添加初始url，爬虫就会开始运行了。直到没有任何request对象，或者待抓取的url。

scrapy-redis学习记录(一)

1.scrapy_redis原理

2.编写scrapy_redis爬虫

继续阅读

libsvm for python 安装

拒绝用户登录:/bin/false和/usr/sbin/nologin

学习软件测试基础测试第七天

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

Linxu常用命令技巧汇总

27. Remove Element(列表)题目代码

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

ACS基本配置-权限等级管理

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入