《指令行上的資料科學(data science at the command
line)》一書與github皆為我們帶來大量高水準的預處理與後處理類工具選項,大家亦可根據需要對其進行針對性調整。在今天的文章中,我将向各位強烈推薦自己最為喜愛的那些相關工具。
csvkit絕對值得一試。其能夠利用逗号分隔值實作您所需要的一切。大家可以通過cvs
cut剪切列、使用cvsgrip進行列過濾、通過sql2csv将postgresql中的資料提取至csv、使用cols從列中剪切子集并通過in2cv将微軟excel轉換為csv。
大家亦可以編寫簡短的python腳本以通過指令行實作資料處理。
from nltk.sentiment.vader
import sentimentintensityanalyzer
import sys
sid = sentimentintensityanalyzer()
ss = sid.polarity_scores(sys.argv[1])
print('compound {0} negative {1} neutral {2} positive {3} '.format(ss['compound'], ss['neg'], ss['neu'], ss['pos']))
隻需要五行python腳本即可實作情緒分析。
大家甚至可以通過指令行實作tensorflow調試(不過其目前尚處于beta測試階段,是以可能會出現一些問題)。
作者:核子可樂譯
來源:51cto