天天看點

使用python爬取喜馬拉雅音頻資料并儲存

**

使用python爬取喜馬拉雅音頻資料并儲存

**

1.進入喜馬拉雅官網,打開要爬取的項目網頁,按F12=>F5後進行清空,點選項目網頁中播放按鈕,出現如下圖點選,查找網頁的url,擷取到網頁連結。

使用python爬取喜馬拉雅音頻資料并儲存
使用python爬取喜馬拉雅音頻資料并儲存

2.擷取大url才是網頁真正的連結,但此網站有反扒機制,顧需要通過反扒機制請求頭headers來解決反扒,請求頭中包含以下兩部分:user_agent和xm_sign.

使用python爬取喜馬拉雅音頻資料并儲存

3.但這裡的xm_sign并不是固定的,扔拿不到資料,是以需要找到固定的sign才可以,這裡需要從喜馬拉雅網頁的初始頁面來查找,扔使用F12=>F5然後清空,點選頁面上面的任一播放,出現下圖中有sign的才是我們要找的。

使用python爬取喜馬拉雅音頻資料并儲存

4.将此sign放入請求頭headers中技能得到資料,邊可輕易爬取到資料,下面附出代碼,裡面有注釋解讀,友善學習。

使用python爬取喜馬拉雅音頻資料并儲存
使用python爬取喜馬拉雅音頻資料并儲存

6.需要注意的是sign是網頁中随機生成的一組資料,當你發現資料得不到的時候,說明sign已經失效,此時需要重新使用方法3中的辦法獲得一個新的sign,即可使用。