天天看點

8個超實用的Python庫合集,推一次火一次!

Python 是一個很棒的語言。它是世界上發展最快的程式設計語言之一。它一次又一次地證明了在開發人員職位中和跨行業的資料科學職位中的實用性。整個 Python 及其庫的生态系統使它成為全世界使用者(初學者和進階使用者)的合适選擇。它的成功和流行的原因之一是它強大的第三方庫的集合,這些庫使它可以保持活力和高效。

在本文中,我們會研究一些用于資料科學任務的 Python 庫,而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫。盡管像 panda 和 scikit-learn 這樣的庫,是在機器學習任務中經常出現的,但是了解這個領域中的其它 Python 産品總是很有好處的。

Wget

從網絡上提取資料是資料科學家的重要任務之一。**Wget 是一個免費的實用程式,可以用于從網絡上下載下傳非互動式的檔案。它支援 HTTP、HTTPS 和 FTP 協定,以及通過 HTTP 的代理進行檔案檢索。**由于它是非互動式的,即使使用者沒有登入,它也可以在背景工作。是以下次當你想要下載下傳一個網站或者一個頁面上的所有圖檔時,wget 可以幫助你。

安裝:

`$ pip install wget`


           

例子:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'

### Pendulum


           

對于那些在 python 中處理日期時間時會感到沮喪的人來說,Pendulum 很适合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深入學習。

安裝:

`$ pip install pendulum`


           

例子:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3


           

imbalanced-learn

可以看出,當每個類的樣本數量基本相同時,大多數分類算法的效果是最好的,即需要保持資料平衡。但現實案例中大多是不平衡的資料集,這些資料集對機器學習算法的學習階段和後續預測都有很大影響。幸運的是,這個庫就是用來解決此問題的。它與 scikit-learn 相容,是 scikit-lear-contrib 項目的一部分。下次當你遇到不平衡的資料集時,請嘗試使用它。

安裝:

pip install -U imbalanced-learn# 或者conda install -c conda-forge imbalanced-learn
           

例子:

使用方法和例子請參考文檔。

FlashText

在 NLP 任務中,清理文本資料往往需要替換句子中的關鍵字或從句子中提取關鍵字。通常,這種操作可以使用正規表達式來完成,但是如果要搜尋的術語數量達到數千個,這就會變得很麻煩。Python 的 FlashText 子產品是基于 FlashText 算法為這種情況提供了一個合适的替代方案。FlashText 最棒的一點是,不管搜尋詞的數量如何,運作時間都是相同的。你可以在這裡了解更多内容。

安裝:

`$ pip install flashtext`


           

例子:

提取關鍵字:

from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor()# keyword_processor.add_keyword(<unclean name>, <standardised name>)keyword_processor.add_keyword('Big Apple', 'New York')keyword_processor.add_keyword('Bay Area')keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')keywords_found['New York', 'Bay Area']
           

替換關鍵字:

keyword_processor.add_keyword('New Delhi', 'NCR region')new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')new_sentence'I love New York and NCR region.'
           

Fuzzywuzzy

這個庫的名字聽起來很奇怪,但是在字元串比對方面,fuzzywuzzy 是一個非常有用的庫。可以很友善地實作計算字元串比對度、令牌比對度等操作,也可以很友善地比對儲存在不同資料庫中的記錄。

安裝:

`$ pip install fuzzywuzzy`


           

例子:

from fuzzywuzzy import fuzzfrom fuzzywuzzy import process# 簡單比對度fuzz.ratio("this is a test", "this is a test!")97# 模糊比對度fuzz.partial_ratio("this is a test", "this is a test!") 100
           

更多有趣例子可以在 GitHub 倉庫找到。

PyFlux:

時間序列分析是機器學習領域中最常見的問題之一。**PyFlux 是 Python 中的一個開源庫,它是為處理時間序列問題而建構的。**該庫擁有一系列優秀的現代時間序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 為時間序列模組化提供了一種機率方法。值得嘗試一下。

安裝:

`pip install pyflux`


           

例子:

詳細用法和例子請參考官方文檔。

Ipyvolume

結果展示也是資料科學中的一個重要方面。能夠将結果進行可視化将具有很大優勢。**IPyvolume 是一個可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點圖等)的 Python 庫,并且隻需要少量配置。**但它目前還是 1.0 之前的版本階段。用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對于三維數組就像 matplotlib 的 imshow 對于二維數組一樣好用。可以在這裡擷取更多。

使用 pip:

`$ pip install ipyvolume`


           

使用 Conda/Anaconda:

`$ conda install -c conda-forge ipyvolume`


           

例子:

1. 動畫

8個超實用的Python庫合集,推一次火一次!

2. 體繪制

8個超實用的Python庫合集,推一次火一次!

Dash

**Dash 是一個高效的用于建構 web 應用程式的 Python 架構。它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的,綁定了很多比如下拉框、滑動條和圖表的現代 UI 元素,你可以直接使用 Python 代碼來寫相關分析,而無需再使用 javascript。Dash 非常适合建構資料可視化應用程式。**然後,這些應用程式可以在 web 浏覽器中呈現。使用者指南可以在這裡擷取。

安裝:

pip install dash==0.29.0  # 核心 dash 後端pip install dash-html-components==0.13.2  # HTML 元件pip install dash-core-components==0.36.0  # 增強元件pip install dash-table==3.1.3  # 互動式 DataTable 元件(最新!)
           

例子:

下面的例子展示了一個具有下拉功能的高度互動式圖表。當使用者在下拉菜單中選擇一個值時,應用程式代碼将動态地将資料從 Google Finance 導出到 panda DataFrame。

8個超實用的Python庫合集,推一次火一次!

Gym

**OpenAI 的 Gym 是一款用于增強學習算法的開發和比較工具包。**它相容任何數值計算庫,如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具,這個集合也稱為環境 —— 你可以用它來開發你的強化學習算法。這些環境有一個共享接口,允許你進行通用算法的編寫。

安裝:

`pip install gym`


           

例子:

這個例子會運作CartPole-v0環境中的一個執行個體,它的時間步數為 1000,每一步都會渲染整個場景。

總結

以上這些有用的資料科學 Python 庫都是我精心挑選出來的,不是常見的如 numpy 和 pandas 等庫。如果你知道其它庫,可以在評論區中留言。