天天看點

如何做一個爬蟲

如何做一個爬蟲

1.首先寫一小段代碼,把網站裡面的東西全部扒出來

2.在根據自己的需求寫代碼,找到自己想要的一部分就可以了

3.首先我們來扒一下縱橫中文網裡面的東西

import urllib.request as req
   import re
   url = 'http://www.zongheng.com/'
   webpage = req.urlopen(url)          # 根據超鍊通路連結的網頁
   data = webpage.read()           # 讀取超鍊網頁位元組資料
   data = data.decode('utf-8')     # byte類型解碼為字元串
   print(data)
           
如何做一個爬蟲

上面的圖檔就是我通過代碼全部扒下來的,你們可以看看,後面還有很多。

sence = re.findall(r'<p(.*?)</p>', data, re.S)       #找自己想要的段落并提取出來
      print(sence)
           
如何做一個爬蟲

這就是我扒出來的,代碼很簡單

謝謝!