1 网络爬虫
引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
简单的说,就是有一个程序可以自动去访问网页。
2 Python爬虫
如何实现爬虫?
简单的讲,一共就三步:①构建请求头;②发起访问;③获得响应。另外,一般情况下还需要保存数据。
学习爬虫需要了解的知识:
- HTML语言:HyperText Markup Language,超文本标记语言,规定了网页应该具有什么样的结构。
- HTTP协议:HyperText Transfer Protocol,超文本传输协议,客户端和服务端的传送协议。
3 第一个Python爬虫程序
Python中如何实现爬虫程序?
使用已经编写好的相关的软件包:requests,来模拟请求响应。
请求方法:
- get(url, params=None, **kwargs):发起get请求。
- post(url, params=None, **kwargs):发起post请求。
响应属性:
- text:unicode编码的响应数据。
- content:字节码编码的响应数据。
- json:响应数据解码后的json。
import
爬取结果:
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X......(省略N字)
4 爬取图片并且保存
分析:请求方式用get。图片数据是字节码,使用content属性。保存图片使用open方法。
以百度LOGO为例:
import
保存结果:
爬取结果图片