天天看點

大資料、機器學習與深度學習類指令行工具彙總

《指令行上的資料科學(data science at the command

line)》一書與github皆為我們帶來大量高水準的預處理與後處理類工具選項,大家亦可根據需要對其進行針對性調整。在今天的文章中,我将向各位強烈推薦自己最為喜愛的那些相關工具。

大資料、機器學習與深度學習類指令行工具彙總

csvkit絕對值得一試。其能夠利用逗号分隔值實作您所需要的一切。大家可以通過cvs

cut剪切列、使用cvsgrip進行列過濾、通過sql2csv将postgresql中的資料提取至csv、使用cols從列中剪切子集并通過in2cv将微軟excel轉換為csv。

大家亦可以編寫簡短的python腳本以通過指令行實作資料處理。

from nltk.sentiment.vader 

import sentimentintensityanalyzer 

import sys 

sid = sentimentintensityanalyzer() 

ss = sid.polarity_scores(sys.argv[1]) 

print('compound {0} negative {1} neutral {2} positive {3} '.format(ss['compound'], ss['neg'], ss['neu'], ss['pos'])) 

隻需要五行python腳本即可實作情緒分析。

大家甚至可以通過指令行實作tensorflow調試(不過其目前尚處于beta測試階段,是以可能會出現一些問題)。

作者:核子可樂譯

來源:51cto