天天看點

你的大資料項目使用的工具正确嗎?

工具/産品/解決方案是資料科學家洞察資料的利器。 kdnuggets網站 對此觀點進行了年度調查,來分析資料科學家在用哪些類型的工具,并提供了調查的 匿名原始資料 。

通過主成分析(pca)法進行降維分析

對所有的工具同時進行關系分析,正常來說,pca通過對大樣本資料統計性質(eg, 協方差)的分析,試圖用主要特征來解釋關系。

分析結果:

目前分析的目标:通過一些主成分來分析95種工具之間的關系。最終決定以pca的特征值來決定主成分的數目,這裡選用了兩種規則:一種是以特征值大于1的特征值數量來選擇主成分數量;一種是畫陡坡圖(scree plot),通過95個特征值你會發現一個拐點的特征值。

特征點點陡坡圖顯示在第13和第14特征點時出現拐點,是以,這裡選擇的13個主成分來解釋它們之間的關系,見下圖。

你的大資料項目使用的工具正确嗎?

  工具分類

下面列出根據主成分析得出的13類工具(投票數大于20):

大資料生态(hadoop、spark)和開源項目:hadoop, hbase, hive, mahout, mllib, other hadoop/hdfs-based tools, pig, scala, spark, sql on hadoop tools

微軟資料科學家工具:microsoft azure ml, microsoft power bi, microsoft sql server, revolution analytics

基于python的機器學習:dataiku, h2o (0xdata), python, scikit-learn, theano, vowpal wabbit

sas公司産品:jmp, sas base, sas enterprise miner

matlab、r語言等統計工具:gnu octave, matlab, orange, r, rapidminer, rattle, weka

ibm公司産品:ibm cognos, ibm spss modeler, ibm spss statistics, ibm watson analytics

linux工具和sqlang:actian, c/c++, perl, sqlang, unix shell/awk/gawk

深度學習:caffe, pylearn2

商務智能軟體:pentaho and qlikview

資料分析平台:datameer and zementis

excel和word統計工具:xlstat for excel

其它:other deep learning tools, other free analytics/data mining tools, other hadoop/hdf-based tools, other paid analytics/data mining/data science software, other programming languages

資料可視化:c4.5/c5.0/see5, miner3d, oracle data miner

總結

資料科學家在選擇大資料、資料挖掘和資料分析工具時,更傾向于有一定生态基礎的工具,這樣各個工具間可以互相支援。

為了提高在大資料項目中成功的機會,選擇正确的工具是非常重要的。沒有一個孤立的工具能夠做所有的資料分析,職業的資料專家趨向于使用不止一種相關的工具(分析中發現,資料專家平均使用5種資料分析工具)。你可以根據使用相關工具的資料專家來決定自己的選擇。

另外一個觀點是,要選擇大廠的産品,比如,ibm、微軟和sas,大品牌的産品更豐富,可以使得你的産品更容易擴充。

本文轉自d1net(轉載)