本節書摘來異步社群《資料科學家修煉之道》一書中的第2章,第2.1節,作者: 【美】zacharias voulgaris(弗格裡斯)譯者: 吳文磊 , 田原 責編: 陳冀康,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
“資料科學”這一術語的流行要早于“大資料”的出現(就像“資料”一詞要早于“計算機(computer)”400年出現)。1962年,當john w. tukey[1]寫了《資料分析的未來》(the future of data analysis)[2],他預見了資料分析的新方法的崛起相比于方法論來說更像是一門科學。1974年,peter naur在瑞典和美國出版了《計算機方法的簡明調查》(concise survey of computer methods)[3]。盡管這僅僅是對當時的資料分析方法的綜述,但這本書卻第一次定義了資料科學是“一門研究資料處理的科學,在創立之初,資料與它所表示的事物之間的關系屬于其他學科領域的範疇”。是以,在那時,任何有熟練計算機知識同時有了解資料語義的人都在一定程度上算是一名資料科學家。因為沒有精緻的工具,沒有神奇的範式,也沒有新科學做它的支撐,是以這個詞過了這麼久才流行起來也一點兒都不奇怪了。
由于在之後的10年裡,計算機技術與統計學開始交彙,tukey的觀點開始顯現出來,盡管這種變化顯得十分細小。直到20世紀80年代,它才開始通過一項在資料科學界十分出名的方法得到發展,而這個方法就是資料挖掘。随着時間腳步的行進,資料的科學化處理達到了新的高度,而資料科學則在1996年叩響了學術界的大門。1996年,在日本的神戶,分類學社團國際聯合會(international federation of classification societies)舉行了一個大會,大會的名稱叫“資料科學、分類學以及相關方法”(data science, classification and related methods)。它使得資料科學在學術圈内聲名鵲起,同時也使得它與其他的資料分析術語(例如分類學)差別開來。顯然,資料科學的涵蓋範圍要大得多,這使得資料科學漸漸成為了一支獨立學科。
在之後的1997年,《資料挖掘與知識發現雜志》創刊了,定義了資料挖掘是“從大資料集中抽取資訊”的概念,這是第一次資料科學方法在科學界得到了與工業界内一樣的流行與認可。這個方法我們會在第11章“資料科學的處理流程”中再次遇到。
随着資料庫變得更大,資料科學的角色在20世紀90年代後期的出鏡率也變得更高。這種觀點也随着 jacob zahavi在他1999年的文章“為知識中的金礦而挖掘資料”[4]中得到放大。他寫道“傳統統計方法在小資料集中可以運作得很好。然而,今天的資料集可能會涉及上百萬行以及上百列的資料。擴充性是資料挖掘中的一個巨大問題,另一個技術挑戰在于開發出更适于分析資料,發現非線性關系以及元素間互相作用的模型,以及專用的資料挖掘工具來幫助網站進行決策”。這非常清晰地勾畫了資料分析的新架構,而資料科學則是在将來幫助解決這個需求的領域。
進入2000年後,關于資料科學的出版物開始呈現增長态勢,盡管主要在學術範圍内。關于資料科學的報刊雜志以及書籍變得越來越多,同時吸引了大量研究者的關注。在2005年9月,如我們在上一章節内提到的,“資料科學家”一詞在一篇政府報告中被第一次定義了(盡管隻是一般的表述)。之後,在2007年,資料科學重點實驗室在中國上海成立了。
2009年對資料科學來說是重要的一年。朱揚勇與熊赟,兩位是之前提到的重點實驗室的研究員,在他們的“資料學導論”[5]中提到,資料科學是一門新的科學,明顯地不同于自然科學與社會科學。此外,在2009年1月,hal varian(谷歌首席經濟學家)提出,在接下來的10年裡,統計學家[6](當别人并不非常熟悉資料學時,也會被用來指稱資料科學家)将會是一個迷人的職業。最終,在2009年6月,nathan yau的文章《資料科學家的崛起》[7]被刊載于《flowing data》,使得資料科學家這一角色對于非學術世界的人們變得熟悉起來。
在現在這個10年(2010~2020年)中,關于資料科學的出版物變得豐富,盡管除了你正在讀的這本書之外,還沒有權威的資訊途徑論述如何有效地成為資料科學家。“資料科學”一詞得到了具體地定義,其精華則被總結在drew conway 在2010年9月的韋恩圖中(見圖2.1)
圖2.1所示為conway關于資料科學的韋恩圖,圖例展示了資料科學的主要組成部分以及它與機器學習和傳統研究的差别。通過“danger zone”(危險區域),他大緻是指“黑客/解密者”對計算機系統的安全危害(圖檔源: drewconway)。
他的話提供了對成為資料科學家更深刻的了解,“一個人需要學習許多知識去變成他所渴望成為的全能資料科學家。但不幸的是,僅僅通過讀書和輔導練習并不能解開這些扭結。是以為了簡化讨論,同時也把我的思考放到已經擁擠不堪的創意市場裡去,我将資料科學的韋恩圖呈上……黑客技術、數學和統計學知識,還有專業知識。[8]
最終,在2012年9月,hal varian的這10年裡迷人的職業的表述竟演變成一篇文章,并刊登于哈佛商業評論(“資料科學家:21世紀裡最性感的職業” [9]),這篇文章更是引爆了大衆對資料科學家這一角色重要性的認知。
值得注意的是,與這些出版物和大會同時發生的,還有許多線上的關于資料科學的社會活動。第一個官方的資料科學小組是于 2009年6月在linkedin上成立的(以資料科學家小組而知名[10]),而且他們還有自己的獨立網站(現網址datascientists.net以及原網址datascientists.com)。其他的資料科學小組也已在2008年上線,然而自從2010年以來,他們的數量就以燎原之勢增加,同樣增加的還有資料科學家的線上招聘的文章,這會在第13章展開叙述。同樣值得注意的還有在過去的幾年裡,還有很多關于資料科學的非學術會議。這些會議以研讨會的形式進行,針對資料領域的專家、項目經理和執行層開展。