天天看点

scrapy框架的使用

1.创建项目  scrapy startproject testspider

2 明确目标(items.py)

3 制作爬虫程序  xxx/spiders:   scrapy genspider 文件名 域名

4 处理数据 (pipelines.py)

5 配置settings.py  

     关闭robots协议

     添加headers

6 运行爬虫项目    scrapy crawl 爬虫名

在pycharm里运行   

  1 创建 文件 begin.py    和 scrapy.cfg 同目录

from scrapy import cmdline

cmdline.execute("scrapy crawl baiduspider".split())      

2 在 run -> editconfigurations -> + -> python

name : spider

script : begin.py路径

working directory : 你自己的项目路径

3 打开begin.py

右上角 - > 点运行