好多朋友在入門python的時候都是以爬蟲入手,而網絡爬蟲是近幾年比較流行的概念,特别是在大資料分析熱門起來以後,學習網絡爬蟲的人越來越多,哦對,現在叫資料挖掘了!
其實,一般的爬蟲具有2個功能:取資料和存資料!好像說了句廢話。。。
而從這2個功能拓展,需要的知識就很多了:請求資料、反爬處理、頁面解析、内容比對、繞過驗證碼、保持登入以及資料庫等等相關知識,今天我們就來說說做一個簡單的爬蟲,一般需要的步驟!
存資料
先說存資料,是因為在初期學習的時候,接觸的少,也不需要太過于關注,随着學習的慢慢深入,我們需要儲存大批量的資料的時候,就需要去學習資料庫的相關知識了!這個我們随後開篇單獨說明。
初期,我們抓到需要的内容後,隻需要儲存到本地,無非儲存到文檔、表格(excel)等等幾個方法,這裡大家隻需要掌握with語句就基本可以保證需求了。大概是這樣的:
with open(路徑以及檔案名,儲存模式) as f:
f.write(資料) #如果是文本可直接寫入,如果是其他檔案,資料為二進制模式更好
當然儲存到excel表格或者word文檔需要用到 xlwt庫(excel)、python-docx庫(word),這個在網上很多,大家可以自行去學習。
取資料
啰嗦那麼多,終于到正題,怎麼來抓取我們想要的資料呢?我們一步步的來!
一般所謂的取網頁内容,指的是通過Python腳本實作通路某個URL位址(請求資料),然後獲得其所傳回的内容(HTML源碼,Json格式的字元串等)。然後通過解析規則(頁面解析),分析出我們需要的資料并取(内容比對)出來。
在python中實作爬蟲非常友善,有大量的庫可以滿足我們的需求,比如先用requests庫取一個url(網頁)的源碼
import requests #導入庫
url = '你的目标網址'
response = requests.get(url) #請求資料
print(response.text) #列印出資料的文本内容
這幾行代碼就可以獲得網頁的源代碼,但是有時候這裡面會有亂碼,為什麼呢?
因為中文網站中包含中文,而終端不支援gbk編碼,是以我們在列印時需要把中文從gbk格式轉為終端支援的編碼,一般為utf-8編碼。
是以我們在列印response之前,需要對它進行編碼的指定(我們可以直接指定代碼顯示的編碼格式為網頁本身的編碼格式,比如utf-8,網頁編碼格式一般都在源代碼中的标簽下的charset屬性中指定)。加上一行即可
response.encode = 'utf-8' #指定編碼格式
至此,我們已經擷取了網頁的源代碼,接下來就是在亂七八糟的源代碼中找到我們需要的内容,這裡就需要用到各種比對方式了,常用的幾種方式有:正規表達式(re庫),bs4(Beautifulsoup4庫),xpath(lxml庫)!
建議大家從正則開始學習,最後一定要看看xpath,這個在爬蟲架構scrapy中用的很多!
通過各種比對方式找到我們的内容後(注意:一般比對出來的是清單),就到了上面所說的存資料的階段了,這就完成了一個簡單的爬蟲!
當然了,在我們具體寫代碼的時候,會發現很多上面沒有說到的内容,比如
- 擷取源代碼的時候遇到反爬,根本擷取不到資料
- 有的網站需要登入後才可以拿到内容
- 遇到驗證碼
- 擷取到内容後寫入檔案出錯
- 怎樣來設計循環,擷取大批量的内容甚至整站爬蟲
等等,這些我們慢慢來研究!
總之,學習本身是一個漫長的過程,我們需要不斷的練習來增強我們的學習興趣,以及學到更紮實的知識!大家加油!