scrapy框架的使用

2023-06-11 11:38:56

1.创建项目 scrapy startproject testspider

2 明确目标（items.py）

3 制作爬虫程序 xxx/spiders: scrapy genspider 文件名域名

4 处理数据（pipelines.py）

5 配置settings.py

关闭robots协议

添加headers

6 运行爬虫项目 scrapy crawl 爬虫名

在pycharm里运行

1 创建文件 begin.py 和 scrapy.cfg 同目录

from scrapy import cmdline

cmdline.execute("scrapy crawl baiduspider".split())

2 在 run -> editconfigurations -> + -> python

name : spider

script : begin.py路径

working directory : 你自己的项目路径

3 打开begin.py

右上角 - > 点运行

继续阅读