Python_爬虫

2018-05-22 23:50:00

Python_爬虫

爬虫概念

数据获取的方式：

企业生产的用户数据：大型互联网公司有海量用户，所以他们积累数据有天然优势。有数据意识的中小型企业，也开始积累的数据。
数据管理咨询公司
政府/机构提供的公开数据
第三方数据平台购买数据
爬虫爬取数据

什么是爬虫

抓去网页数据的程序

如何抓去网页数据

网页三大特征：

每个网页都有自己的 URL
网页都使用 HTML 标记语言来描述页面信息
HTTP/HTTPS 协议来传输 HTML 数据

爬虫的设计思路

确定需要爬取的网页 URL 地址
通过 HTTP/HTTPS 协议来获取对应的 HTML 页面
提取 HTML
页面中的数据

如果是需要的数据，就保存起来

如果页面是其它
URL ，那就继续爬取

原文地址https://segmentfault.com/a/1190000014981939?utm_source=index-hottest

Web App开发数据采集 Python Python爬虫通过python爬虫问题python爬虫爬虫系统python python爬虫决策树

上一篇: PHP cURL请求详解PHP cURL请求详解

下一篇: webpack配置

继续阅读