![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZwpmLy0yMvwVMw8CX4EDMy8CXzRWYvxGc19CX05WZ052bj1Cc39CXt92Yu4Wd5JXZpJmL3d3dvw1LcpDc0RHaiojIsJye.jpg)
爬蟲概念
資料擷取的方式:
- 企業生産的使用者資料:大型網際網路公司有海量使用者,是以他們積累資料有天然優勢。有資料意識的中小型企業,也開始積累的資料。
- 資料管理咨詢公司
- 政府/機構提供的公開資料
- 第三方資料平台購買資料
- 爬蟲爬取資料
什麼是爬蟲
抓去網頁資料的程式
如何抓去網頁資料
網頁三大特征:
- 每個網頁都有自己的
URL
- 網頁都使用
标記語言來描述頁面資訊HTML
-
協定來傳輸HTTP/HTTPS
資料HTML
爬蟲的設計思路
- 确定需要爬取的網頁
位址URL
- 通過
協定來擷取對應的HTTP/HTTPS
頁面HTML
- 提取
HTML
頁面中的資料
如果是需要的資料,就儲存起來
如果頁面是其它
,那就繼續爬取URL
原文位址https://segmentfault.com/a/1190000014981939?utm_source=index-hottest