天天看點

Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分

1. 兒歌多多APP簡單分析

今天是手機APP資料爬取的第一篇案例部落格,我找到了一個兒歌多多APP,沒有加強,沒有加殼,沒有加密參數,對新手來說,比較友好,咱就拿它練練手,熟悉一下Fiddler和夜神模拟器是如何配合着使用的。

兒歌多多APP在豌豆莢的下載下傳量還是可以的,一家做内容的APP。

Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分

2. APP安裝和使用

APP直接去下載下傳APK包就可以了,拖拽到夜神模拟器就安裝成功了。在模拟器打開出現如下界面,表示已經可以開始操作了,非常兒童的APP。

Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分

3. 抓包測試

打開APP同時,打開Fiddler,首先測試一下網絡是否正常,用模拟器自帶的浏覽器去通路百度,如果可以通路表示無問題,否則重新設定代理

運作軟體過程中,注意觀察Fiddler,如果出現JSON類型的API[接口],就要注意了,你想要的資料就在這裡

Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分

我們點選連結,看Fiddler右側顯示内容,主要看我标注的3處重點

Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分

分别是連結,請求頭,響應内容

4. 提取接口連結

擷取到上述位址之後,你就可以提取接口位址了,提取到的接口很長,需要我們進行關鍵參數的判定

http://bb.ergeduoduo.com/baby/bb.php?type=getvideos&collectid=29&interver=8&page=1&pagesize=30&grade=-1_-1&user=866174010820641&prod=childstory_ar_4.0.5.0&corp=duoduo&source=childstory_ar_4.0.5.0_m360&srcver=story&ver=1&imei=866174010820641&protect=1
           

經過一系列的測試,縮短連結如下

http://bb.ergeduoduo.com/baby/bb.php?type=getvideos&collectid=29&page=1&pagesize=30
           

關鍵參數

type # 擷取内容類型
collectid # 分類
page = 1 # 頁碼
pagesize = 30 # 每頁資料
           

5. 兒歌多多APP資料爬蟲編寫

關鍵位址拿到之後,下面的操作就是選擇一個你熟悉的爬蟲庫去進行操作了,你可以使用

scrapy

,

pyspider

等,也可以直接用

requests

直接去爬取,都是非常簡單的,我就不進行爬蟲部分的編寫了~

6. 本篇部落格重點内容

通過兒歌多多,希望你可以把Fiddler和夜神模拟器之間的配合進行抓包。工具使用熟練,隻要接口被我們擷取到,關鍵參數被我們提取到,我們就可以快速的編寫爬蟲去擷取它内部的資料了。

在爬取的過程中,還可以直接去下載下傳視訊哦

Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分
Python爬蟲入門教程 42-100 爬取兒歌多多APP資料-手機APP爬蟲部分

更多内容,歡迎關注

https://dwz.cn/r4lCXEuL

.