你的大資料項目使用的工具正确嗎？

2021-11-09 12:04:35

工具/産品/解決方案是資料科學家洞察資料的利器。 kdnuggets網站對此觀點進行了年度調查，來分析資料科學家在用哪些類型的工具，并提供了調查的匿名原始資料。

通過主成分析(pca)法進行降維分析

對所有的工具同時進行關系分析，正常來說，pca通過對大樣本資料統計性質(eg, 協方差)的分析，試圖用主要特征來解釋關系。

分析結果：

目前分析的目标：通過一些主成分來分析95種工具之間的關系。最終決定以pca的特征值來決定主成分的數目，這裡選用了兩種規則：一種是以特征值大于1的特征值數量來選擇主成分數量;一種是畫陡坡圖(scree plot)，通過95個特征值你會發現一個拐點的特征值。

特征點點陡坡圖顯示在第13和第14特征點時出現拐點，是以，這裡選擇的13個主成分來解釋它們之間的關系，見下圖。

　　工具分類

下面列出根據主成分析得出的13類工具(投票數大于20)：

大資料生态(hadoop、spark)和開源項目：hadoop, hbase, hive, mahout, mllib, other hadoop/hdfs-based tools, pig, scala, spark, sql on hadoop tools

微軟資料科學家工具：microsoft azure ml, microsoft power bi, microsoft sql server, revolution analytics

基于python的機器學習：dataiku, h2o (0xdata), python, scikit-learn, theano, vowpal wabbit

sas公司産品：jmp, sas base, sas enterprise miner

matlab、r語言等統計工具：gnu octave, matlab, orange, r, rapidminer, rattle, weka

ibm公司産品：ibm cognos, ibm spss modeler, ibm spss statistics, ibm watson analytics

linux工具和sqlang：actian, c/c++, perl, sqlang, unix shell/awk/gawk

深度學習：caffe, pylearn2

商務智能軟體：pentaho and qlikview

資料分析平台：datameer and zementis

excel和word統計工具：xlstat for excel

其它：other deep learning tools, other free analytics/data mining tools, other hadoop/hdf-based tools, other paid analytics/data mining/data science software, other programming languages

資料可視化：c4.5/c5.0/see5, miner3d, oracle data miner

總結

資料科學家在選擇大資料、資料挖掘和資料分析工具時，更傾向于有一定生态基礎的工具，這樣各個工具間可以互相支援。

為了提高在大資料項目中成功的機會，選擇正确的工具是非常重要的。沒有一個孤立的工具能夠做所有的資料分析，職業的資料專家趨向于使用不止一種相關的工具(分析中發現，資料專家平均使用5種資料分析工具)。你可以根據使用相關工具的資料專家來決定自己的選擇。

另外一個觀點是，要選擇大廠的産品，比如，ibm、微軟和sas，大品牌的産品更豐富，可以使得你的産品更容易擴充。

本文轉自d1net（轉載）

你的大資料項目使用的工具正确嗎？

繼續閱讀

ubuntu14.04下安裝hbse1.0.1.1

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

User Defined Hadoop DataType

neo4j之cypher使用文檔

Ambari介紹和架構原理

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

sqlServer根據經緯查距離

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

win10本地scala和spark安裝安裝scala安裝spark

在python中建立excel并寫入