天天看點

Python_爬蟲

Python_爬蟲
Python_爬蟲

爬蟲概念

資料擷取的方式:

  • 企業生産的使用者資料:大型網際網路公司有海量使用者,是以他們積累資料有天然優勢。有資料意識的中小型企業,也開始積累的資料。
  • 資料管理咨詢公司
  • 政府/機構提供的公開資料
  • 第三方資料平台購買資料
  • 爬蟲爬取資料
什麼是爬蟲

抓去網頁資料的程式

如何抓去網頁資料

網頁三大特征:

  • 每個網頁都有自己的

    URL

  • 網頁都使用

    HTML

    标記語言來描述頁面資訊
  • HTTP/HTTPS

    協定來傳輸

    HTML

    資料
爬蟲的設計思路
  1. 确定需要爬取的網頁

    URL

    位址
  2. 通過

    HTTP/HTTPS

    協定來擷取對應的

    HTML

    頁面
  3. 提取

    HTML

    頁面中的資料

    如果是需要的資料,就儲存起來

    如果頁面是其它

    URL

    ,那就繼續爬取

原文位址https://segmentfault.com/a/1190000014981939?utm_source=index-hottest