如何做一個爬蟲
1.首先寫一小段代碼,把網站裡面的東西全部扒出來
2.在根據自己的需求寫代碼,找到自己想要的一部分就可以了
3.首先我們來扒一下縱橫中文網裡面的東西
import urllib.request as req
import re
url = 'http://www.zongheng.com/'
webpage = req.urlopen(url) # 根據超鍊通路連結的網頁
data = webpage.read() # 讀取超鍊網頁位元組資料
data = data.decode('utf-8') # byte類型解碼為字元串
print(data)
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHL4NGVPBzaq1EMRpHW4Z0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL2UDNxATO1AjMzATMwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
上面的圖檔就是我通過代碼全部扒下來的,你們可以看看,後面還有很多。
sence = re.findall(r'<p(.*?)</p>', data, re.S) #找自己想要的段落并提取出來
print(sence)
這就是我扒出來的,代碼很簡單
謝謝!