天天看點

python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了

python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了

簡介

這個庫的名字叫 GoPUP,GitHub 首頁是:

https://github.com/justinzm/gopup      

這其實是一個基于公開 API 的資料接口庫,這個庫封裝了各種各樣的方法,比如通過 wx_hot_list 這個方法我們就可以擷取實時的微信熱門文章榜單。

基本使用

下面我們來簡單介紹下它的使用方法,首先是安裝,使用 pip 即可:

pip install gopup      
python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了

因為這個庫會不斷更新,如果要更新的話大家可以運作如下指令:

pip install -U gopup      

安裝完畢之後就可以開始使用了,其實使用起來還是非常簡單的。

比如這裡我們以「微網誌指數」為例來說明下用法,官方文檔見 http://doc.gopup.cn/#/data/index_data?id=微網誌指數資料

  • 接口: weibo_index
  • 目标位址: https://data.weibo.com/index/newindex
  • 描述: 擷取指定 詞語 的微網誌指數
  • 輸入參數
名稱 類型 必須 描述
word str Y 關鍵詞
time_type str Y time_type=“1hour”; 1hour, 1day, 1month, 3month 選其一.
  • 輸出參數
名稱 類型 預設顯示 描述
date datetime Y 日期-索引
index float Y 指數

大家可以看到,這個接口的目标位址實際上就是一個公開 API,然後我們隻需要輸入對應的詞語和時間段,就可以輸出對應的指數結果。

接口用法如下:

python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了
python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了

接口示例代碼

import gopup as gp
df_index = gp.weibo_index(word="疫情", time_type="3month")
print(df_index)      

在jupyter notebook上面示範代碼效果:

這裡我們先導入了 gopup 庫,然後調用了它的 weibo_index 方法,傳入關鍵詞和時間段,這裡我們查詢的是最近三個月的疫情對應的微網誌指數,也就對應這個詞在微網誌的熱度。

運作結果如下:

python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了

我們還可以進一步将其轉化為可視化圖表:

import matplotlib.pyplot as plt

plt.figure(figsize=(15, 5))
plt.title("微網誌「疫情」熱度走勢圖")
plt.xlabel("時間")
plt.ylabel("指數")
plt.plot(df_index.index, df_index['疫情'], '-', label="指數")
plt.legend()
plt.grid()
plt.show()      
python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了

這樣通過簡單的幾行代碼我們就可以輕松将某個詞的熱度走勢可視化出來了,繪制成折線圖之後,熱度走勢一目了然。

更多資料

當然上面僅僅是冰山一角,GoPUP 內建了各種公開 API,就像個爬蟲一樣給各種 API 提供了封裝,資料可謂是應有盡有。

根據 GoPUP 的簡介,這裡面的資料包括這些類别:

  • 指數資料:微網誌指數資料,百度指數資料,百度搜尋資料,百度資訊指數,百度媒體指數,百度需求圖譜,百度人群畫像年齡分布,百度人群畫像性别分布,百度人群畫像興趣分布;
  • 算數資料:算數指數資料,算數相關性分析,算數地域分析,算數城市分析,算數年齡分析,算數性别分析,算數使用者閱讀興趣分類,谷歌指數資料,谷歌指數資料,谷歌事實查證;
  • 宏觀資料:中國宏觀資料,中國宏觀杠杆率資料,貨币匯率資料;
  • 利率資料:Shibor資料,Shibor報價資料,Shibor均值資料,LPR資料;
  • 公司資料:千裡馬公司,獨角獸公司,倒閉公司,商業特許經營公司;
  • 資訊資料:新聞聯播文字稿;
  • 生活資料:中國油價資料,汽柴油曆史調價資訊,調價日的地區油價曆史資料;
  • 詩詞資料:唐代詩人,唐詩資料;
  • 影視資料:實時電影票房資料,單日電影票房資料,單日影院票房資料,實時電視劇播映指數,實時綜藝播映指數,藝人商業價值,藝人流量價值;
  • 全國高校資料:全國普通高等學校名單,全國成人高等學校名單,全國高等學校詳情資料;
  • 疫情資料:網易疫情資料,丁香園疫情資料……

當然這個庫也在不斷更新,更多詳細的内容大家可以到官方文檔了解下:http://doc.gopup.cn/#/README

有了這些資料,我們做資料分析和可視化就不用再去寫爬蟲啦,直接拿來用就好了,簡直不要太友善!

python一個好玩的庫,可以直接調接口資料,進行資料分析,不用去爬取資料集再進行分析了