天天看點

大資料、機器學習與深度學習類指令行工具彙總

抓緊你的鍵盤!無需滑鼠或者gui,我們完全能夠在os x與linux上完成大量操作。面向各類*n*x系統的大量出色指令行工具一直在技術行業擁有極高人氣,且已經擴充至python、go、nodejs乃至各類混合型工具當中。即使大家并不打算通過指令行運作整條資料處理管道,這些工具仍然能夠帶來可觀助益。

《指令行上的資料科學(data science at the command line)》一書與github皆為我們帶來大量高水準的預處理與後處理類工具選項,大家亦可根據需要對其進行針對性調整。在今天的文章中,我将向各位強烈推薦自己最為喜愛的那些相關工具。

大資料、機器學習與深度學習類指令行工具彙總

csvkit絕對值得一試。其能夠利用逗号分隔值實作您所需要的一切。大家可以通過cvs cut剪切列、使用cvsgrip進行列過濾、通過sql2csv将postgresql中的資料提取至csv、使用cols從列中剪切子集并通過in2cv将微軟excel轉換為csv。

大家亦可以編寫簡短的python腳本以通過指令行實作資料處理。

from nltk.sentiment.vader 

import sentimentintensityanalyzer 

import sys 

sid = sentimentintensityanalyzer() 

ss = sid.polarity_scores(sys.argv[1]) 

print('compound {0} negative {1} neutral {2} positive {3} '.format(ss['compound'], ss['neg'], ss['neu'], ss['pos'])) 

隻需要五行python腳本即可實作情緒分析。

大家甚至可以通過指令行實作tensorflow調試(不過其目前尚處于beta測試階段,是以可能會出現一些問題)。

本文作者:核子可樂

來源:51cto