天天看点

创建Scrapy项目过程及各文件含义

废话不多说,直接上步骤:

首先,要下载scrapy的包文件,下载好之后,win+R打开黑屏终端,输入scrapy就可以查看版本信息,以及已经发布的scrapy项目的信息。

(注:如果已经在自己电脑上发布了scrapy项目,黑屏终端输入scrapy启动服务之后,就可以通过浏览器127.0.0.1:6800查看已经发布的项目了)

1. 使用cmd黑屏终端cd到你要创建项目的目录下,然后输入以下内容

scrapy startproject xxx
           

其中xxx是你项目的名称

如下图所示:

创建Scrapy项目过程及各文件含义

2. 创建完毕之后,就可以使用pycharm打开这个创建好的scrapy项目了

创建Scrapy项目过程及各文件含义

创建好的scrapy项目的目录结构如上图所示

简要了解一下各文件的作用及意义:

1. spiders文件夹: 这里存放爬虫的主程序,这里可以写多个爬虫文件,分别执行不同的爬虫功能。

2. items.py: 这个文件定义了爬虫程序中爬取的字段信息,对应着数据库中的属性信息。

3. middlewares.py: 下载中间件,可以对爬取到的网页信息尽心特定的处理。

4. pipelines.py: 管道,也就是将返回来的item字段信息写入到数据库,这里可以写写入数据库的代码。

5. settings.py: 配置文件。

**6. scrapy.cfg:**可以说是配置settings的文件,如果一个项目中包含多个settings.py配置文件,那么在这个文件中就可以选择使用哪个配置文件来管理项目。

3. 创建一个爬虫文件

scrapy genspider xxx xxx.cn
           

举个栗子:

爬虫文件名为第一个xxx:blogspider

爬虫文件执行爬虫的网站为第二个xxx:weibo.cn

创建Scrapy项目过程及各文件含义

每次创建新的爬虫文件都使用这个命令行就可

以下是执行上述步骤之后创建的爬虫文件:

创建Scrapy项目过程及各文件含义

我们可以重写爬虫文件中的各种方法来实现我们的爬虫

4. 修改settings.py:

  1. 修改是否遵守爬虫规则,默认是True,表示会爬取特定的内容,一般会将它改成False:

    ROBOTSTXT_OBEY = False

  2. 开启中间件:settings.py文件往下拉,将代码注释掉就可以
DOWNLOADER_MIDDLEWARES = {
   'microBlogSpider.middlewares.MicroblogspiderDownloaderMiddleware': 543,
}
           
  1. 开启管道:同上
ITEM_PIPELINES = {
   'microBlogSpider.pipelines.MicroblogspiderPipeline': 300,
}
           

接下来就是编写items.py文件确定爬取的字段信息,编写pipelines.py和数据库进行交互,编写爬虫文件爬取网页内容。。。

5. 启动爬虫

命令行中直接输入:

scrapy crawl xxx

其中xxx代表你的爬虫文件的name

或者创建一个start.py文件,每次执行这个文件就可以启动,文件内容如下:

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl xxxx".split())
           

xxxx填入对应的爬虫名称就可以了