天天看點

[實踐]資料科學驅動力矩陣方法介紹

在當今的大資料時代,利用資料科學理論進行資料分析起着越來越重要的作用。探讨不同資料技巧類型和熟練程度對相關項目有着怎樣的影響也開始具有重要意義。近日,analyticsweek的首席研究員、bussiness qver broadway的總裁bob

hayes博士就公開了研究資料分析項目成功所必需技能的相關結果。bob所提出的基于技能的資料科學驅動力矩陣方法,可以指出最能改善資料科學實踐的若幹技能。

資料技能的熟練程度

首先,bob在analyticsweek的研究包含了很多向資料專家提出的,有關技能、工作角色和教育水準等有關的問題調查。該調查過程針對5個技能領域(包括商業、技術、程式設計、數學和模組化以及統計)的25個資料技能進行,将其熟練程度劃分為了6個等級:完全不知道(0分)、略知(20分)、新手(40)、熟練(60分)、非常熟練(80分)和專家(100分)。這些不同的等級就代表了資料專家給予幫助或需要接受幫助的能力水準。其中,“熟練”表示剛好可以成功完成相關任務,為某個資料技能所能接受的最小等級。“熟練”以下的等級表示完成任務還需要幫助,等級越低需要的幫助越多;而“熟練”以上的等級則表示給予别人幫助的能力,等級越高給予的幫助可以更多。

[實踐]資料科學驅動力矩陣方法介紹

bob列出了4中不同工作角色對于25種不同資料技能的熟練程度。從上圖可以看出,不同領域的專家對其領域内技能的掌握更加熟練。然而,即使是資料專家對于某些技能的掌握程度也達不到“熟練”的程度。例如,上圖中淺黃色和淺紅色區域都在60分以下。這些技能包括非結構化資料、nlp、機器學習、大資料和分布式資料、雲管理、前端程式設計、優化、機率圖模型以及算法和貝葉斯統計。而且,針對以下9種技能,隻有一種類型的專家能夠達到熟練程度——産品設計、商業開發、預算編制、資料庫管理、後端程式設計、資料管理、數學、統計/統計模組化以及科學/科學方法。

并非所有的資料技能都同等重要

接下來,bob繼續探讨了不同資料技能的重要性。為此,analyticsweek的研究調查了不同資料專家對其分析項目結果的滿意程度(也表示項目的成功程度):從0分到10分,其中0分表示極度不滿意,10分表示極度滿意。

對于每一種資料技能,bob都将資料專家的熟練程度和項目的滿意度進行了關聯。下表就列出了4種工作角色的技能關聯情況。表中關聯度越高的技能就表示該技能對項目成功的重要性越高。而表中上半部分的技能相比于下半部分的技能對于項目結果更加重要。從表中可以看出,商業管理者和研究者的資料技能和項目結果的滿意度關聯度最高(平均r=0.30),而開發人員和創新人員的關聯度隻有0.18。此外,四種工作角色中不同資料技能之間的平均關聯度隻有0.01,表明對于一種資料專家是必須的資料技能對于其他資料專家未必是必須的。

[實踐]資料科學驅動力矩陣方法介紹

資料科學驅動力矩陣:圖形化結果

基于熟練程度和關聯度的結果,bob繪出了資料科學驅動力矩陣(data science driver

matrix,dsdm)的示意圖。其中,x軸代表所有資料技能的熟練程度,y軸代表技能與項目結果的關聯度,而原點則分别對于熟練程度的60分和關聯度的0.30。

[實踐]資料科學驅動力矩陣方法介紹

結果解讀:改善資料科學的實踐

在dsdm中,每一種資料技能都會落在其中的一個象限中。由此,這種技能所代表的含義也就不同。

象限1(左上):該區域内的技能對于項目結果非常重要,但熟練程度卻不高。那麼,通過聘請掌握相關技能的資料專家或者加強相關技能的員工教育訓練,項目就可以取得很好的改進。

象限2(右上):該區域内的技能對于項目結果非常重要,而掌握的熟練程度也不低。

象限3(右下):該區域内的技能對于項目結果而言為非必須,但掌握的熟練程度較高。是以,需要避免在這些技能上的過度投入。

象限4(左下):該區域内的技能對于項目結果而言為非必須,掌握的熟練程度也不高。但是,仍然沒有必須要加強對這些技能的投入。

對于不同資料角色的dsdm

bob針對商業管理者、研究者、開發人員和創新人員4中角色分别建立了dsdm,并主要關注落在第一象限的技能。

商業管理者

對于商業管理者而言,第一象限中的技能包括統計學/統計模組化、資料挖掘、科學/科學方法、大資料和分布式資料、機器學習、貝葉斯統計、優化、非結構化資料、結構化資料以及算法。而沒有任何技能落在第二象限。

[實踐]資料科學驅動力矩陣方法介紹
開發人員

對于開發人員,隻有系統管理和資料挖掘兩種技能落在第一象限。絕大部分技能都落在第四象限。

[實踐]資料科學驅動力矩陣方法介紹
創新人員

對于創新人員,共有數學、資料挖掘、商業開發、機率圖模型和優化等五種技能落在第一象限。而絕大部分技能都落在第四象限。

[實踐]資料科學驅動力矩陣方法介紹
研究者

對于研究者,共有算法、大資料和分布式資料、資料管理、産品設計、機器學習和貝葉斯統計等五種技能落在第一象限。而落在第二象限的技能卻很少。

[實踐]資料科學驅動力矩陣方法介紹

結論

從以上的研究中,bob得到以下結論:

無論是對于哪個領域的專家,資料挖掘對于項目結果都十分重要。

商業管理者和研究者可以通過改善資料技能來增加資料分析項目的滿意度。

某些特殊的資料技能對于一些分析項目的結果非常重要。

除此之外,bob還提出團隊合作對于項目成功也有着非凡的意義。

原文釋出時間為:2015-12-26

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀