Python_爬蟲

2018-05-22 23:50:00

Python_爬蟲

爬蟲概念

資料擷取的方式：

企業生産的使用者資料：大型網際網路公司有海量使用者，是以他們積累資料有天然優勢。有資料意識的中小型企業，也開始積累的資料。
資料管理咨詢公司
政府/機構提供的公開資料
第三方資料平台購買資料
爬蟲爬取資料

什麼是爬蟲

抓去網頁資料的程式

如何抓去網頁資料

網頁三大特征：

每個網頁都有自己的 URL
網頁都使用 HTML 标記語言來描述頁面資訊
HTTP/HTTPS 協定來傳輸 HTML 資料

爬蟲的設計思路

确定需要爬取的網頁 URL 位址
通過 HTTP/HTTPS 協定來擷取對應的 HTML 頁面
提取 HTML
頁面中的資料

如果是需要的資料，就儲存起來

如果頁面是其它
URL ，那就繼續爬取

原文位址https://segmentfault.com/a/1190000014981939?utm_source=index-hottest

Web App開發資料采集 Python Python爬蟲通過python爬蟲問題python爬蟲爬蟲系統python python爬蟲決策樹

上一篇: PHP cURL請求詳解PHP cURL請求詳解

下一篇: webpack配置

繼續閱讀