- 环境安装
- Windows:Anaconda---python环境的一键安装包(通过文件镜像安装比较快)
- Anaconda中Scripts文件夹:各种各样的可执行文件coda,pip等
- coda list:列出所有Anaconda安装的包
- 官方安装python
- 官网下载对应版本安装包,点击运行,下一步,增加环境变量即可
- PyCharm:python非常好用的IDE
- Linux
- 切换成root账户
-
sudo su
-
- 安装对应的依赖库和python3
-
<爬虫>崔庆才的爬虫课
-
- 切换成root账户
- Mac OS
- 安装Homebrew
- 安装python3
-
brew install python3
-
- Windows:Anaconda---python环境的一键安装包(通过文件镜像安装比较快)
- MongoDB环境安装
- Windows
- 官网下载安装包
- 打开--下一步--环境变量
- 建立存储数据的文件夹data,在其里面建立db文件夹
- shif+右键(bin目录下)--配置数据存储信息
-
<爬虫>崔庆才的爬虫课 - 在localhost:27017会启动成功
-
- 连接客户端:mongo
-
<爬虫>崔庆才的爬虫课
-
- 配置成服务--增加日志文件
-
<爬虫>崔庆才的爬虫课 -
<爬虫>崔庆才的爬虫课
-
- 可视化工具:Robomongo---下载安装即可
-
-
<爬虫>崔庆才的爬虫课
-
-
-
<爬虫>崔庆才的爬虫课
-
- Windows
- Redis环境安装
- Windows:
- 下载msi文件---一直下一步就行
- 安装redis desktop---0.8.8版本的exe文件 ----可视化工具
- linux
-
<爬虫>崔庆才的爬虫课 - 进入客户端
-
<爬虫>崔庆才的爬虫课
-
- 进行远程链接和访问权限密码的设置
-
<爬虫>崔庆才的爬虫课
-
-
- Mac OS
-
<爬虫>崔庆才的爬虫课
-
- Windows:
- MySQL的环境安装
-
- 下载msi安装包---下一步--设置默认端口和密码
- 会自动添加MySQL的服务
- 可视化工具MySQL-Front---直接百度安装就行
-
-
<爬虫>崔庆才的爬虫课 - 修改配置文件
-
<爬虫>崔庆才的爬虫课 - 限制只能本地访问---注释掉即可
-
<爬虫>崔庆才的爬虫课
-
-
-
-
-
<爬虫>崔庆才的爬虫课
-
-
- pyhton多版本共存的问题
- 根据环境变量的搜索规则---将不同的python版本路径配置进环境变量,将python.exe改成python3.exe就不会名字冲突
- where python ----查找几个python
-
- 将python.exe改成python3.exe---输入python3就只会调用python3--保留python.exe
- 将python2的版本改成python2.exe--保留pyhton.exe
- 依旧冲突的python.exe通过更改环境变量的顺序,让其先调用Anaconda中的python.exe即可
- pip的版本冲突也是完全一样的,通过改名实现多版本共存
- Linux和Mac OS
-
<爬虫>崔庆才的爬虫课 - 找路径
-
<爬虫>崔庆才的爬虫课 - 利用软链接实现多版本共存
-
<爬虫>崔庆才的爬虫课
-
-
- 爬虫常用库的安装
-
- urllib re---内置的库,不需要你安装
- requests
- pip install requests
- Selenium---主要是做自动化测试
-
<爬虫>崔庆才的爬虫课 - 需要安装chromdriver---
-
<爬虫>崔庆才的爬虫课 -
<爬虫>崔庆才的爬虫课
-
-
- phantomjs
- 下载--解压-将bin目录加入环境变量即可
- lxml---xpath的解析方式
-
<爬虫>崔庆才的爬虫课
-
- beautifulsoup
-
<爬虫>崔庆才的爬虫课
-
- pyquery--网页解析库--跟jquery一样
-
<爬虫>崔庆才的爬虫课
-
- pymysql--存储库
-
<爬虫>崔庆才的爬虫课 -
<爬虫>崔庆才的爬虫课
-
- pymongo
-
<爬虫>崔庆才的爬虫课 -
<爬虫>崔庆才的爬虫课
-
- redis
-
<爬虫>崔庆才的爬虫课 -
<爬虫>崔庆才的爬虫课
-
- flask--简单的web服务器
-
<爬虫>崔庆才的爬虫课
-
- django--web服务器框架
- pip3 install django
- jupyter--记事本--在线编程
-
<爬虫>崔庆才的爬虫课 -
<爬虫>崔庆才的爬虫课
-
- Linux Mac OS
-
<爬虫>崔庆才的爬虫课
-
-
- 基础篇
- 什么是爬虫?
-
<爬虫>崔庆才的爬虫课
-
- 基本流程
-
<爬虫>崔庆才的爬虫课
-
- request和response
-
<爬虫>崔庆才的爬虫课
-
- request包含什么
-
<爬虫>崔庆才的爬虫课
-
- response包含什么
-
<爬虫>崔庆才的爬虫课
-
- 能抓什么数据
-
<爬虫>崔庆才的爬虫课
-
- 抓起来的数据,解析方式都有哪些
-
<爬虫>崔庆才的爬虫课
-
- 为什么我抓到的和浏览器看到的不一样?
-
<爬虫>崔庆才的爬虫课 - 分析,模仿,splash也是模拟
-
- 怎么保存数据
-
<爬虫>崔庆才的爬虫课
-
- Urllib库
-
<爬虫>崔庆才的爬虫课
-
- requests库
-
<爬虫>崔庆才的爬虫课
-
- 正则
- Selenium
- pyquery
- bs4
- 什么是爬虫?
- pySpider
- 安装
- pip install pyspider
- 启用pyspider所有组件
- pyspider all
- 安装
- scrapy
-
<爬虫>崔庆才的爬虫课
-