天天看點

《偉大的計算原理》一大資料

本節書摘來華章計算機《偉大的計算原理》一書中的第2章 ,[美]彼得 j. 丹甯(peter j. denning)

克雷格 h. 馬特爾(craig h. martell)著 羅英偉 高良才 張 偉 熊瑞勤 譯 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

大資料是最近出現的另一個時髦概念,其背後隐藏了關于計算的豐富資訊。大資料關注如何對網際網路上的海量資料進行分析,從中發現有價值的統計規律和相關性等資訊。這種分析可以廣泛應用于各種領域,例如科學、工程、商業、人口普查、執法等。

計算機科學家對資料的存儲、查詢及處理已經進行了長時間的關注,而且很多關注的問題甚至比目前的技術進展還要超前。可惜的是,這些超前的想法由于各種因素的影響被埋沒在曆史的塵埃中,被大衆所遺忘。“大資料”這一術語在很大程度上是新瓶裝舊酒,雖然這一術語确實對很多領域産生了顯著的影響。例如,在商業活動中,商業組織收集海量的客戶相關資料,并利用這些資料去發現市場趨勢、廣告投放對象以及客戶忠誠度等資訊。受到公共資金資助的科研項目也被要求對外公開其資料,以友善公衆和其他科研項目能夠對這些資料進行多方面的利用和分析。警察系統則利用海量的通信資訊和信用卡交易資訊,從中發現犯罪分子。所有這些領域都開始主動尋求資料科學家、資料分析師以及資料系統設計師來幫助他們進行資料分析工作。

計算機科學家在其中的貢獻主要展現在兩個方面。一方面是關于更高效地資料分析方法,另一方面則是能夠支援海量資料處理的系統或技術架構。例如,richard karp(1993)基于組合方法實作了對基因資料片段進行融合進而形成基因組圖譜的高效算法。tony chan和yousef saad(1986)的研究工作表明,hypercube(一種早期出現的并行計算架構)對于多重網格算法(一類重要的數字計算方法)具有最優的效果,而多重網格算法能夠對大規模資料空間的數學模型進行求解。jeffrey dean和sanjay ghemawat(2008)設計了mapreduce算法,能夠支援數千個處理器通過并行的方式對海量資料進行處理。

在商業領域中,如何對大規模資料集進行處理和分析一直以來都是一個重要的問題。商業組織會收集關于客戶、庫存、産品制造、财務等方面的各種資料,這些資料對于一個大型的國際化商業組織的正常運轉具有非常重要的作用。20世紀30年代,一個電子計算機還未出現的年代,ibm靠出售類似卡片分類器和檢索器的簡單裝置從資料處理市場獲得了巨大的财富。20世紀50年代,ibm開始向電子資料處理領域發展,轉型成為一家計算機公司。1956年,ibm對外釋出了第一個硬碟存儲系統ramac 305,受到了廣泛關注。ibm聲稱,任何商業組織都可以将其堆滿倉庫的檔案資料轉移到一個小小的硬碟中,進而能夠對資料進行極為高效的處理。随着資料存儲需求的不斷增長,設計者開始關注如何對資料進行有效的組織進而實作對資料的快速通路和簡易維護。當時,兩個主流且存在競争關系的方法分别是綜合資料系統(integrated data system,ids)(bachman 1973)和關系資料庫系統(relational database system,rds)(codd 1970,1990)。綜合資料系統具有簡單、快速、實用等特點,能夠在管理大量資料檔案的同時隐藏檔案在硬碟上的實體結構和位置。關系資料庫系統則基于數學化的集合理論,它具有一個非常清晰的概念模型,但在經過了多年的發展後才實作了與綜合資料系統相當的處理效率。從20世紀70年代開始,研究領域形成了一個關于大規模資料庫(very large databases)的研究團體,并每年召開一次學術會議(vldb)對相關議題進行讨論。

從20世紀50年代開始,計算領域的研究者進入了文檔管理領域:幫助文檔管理者組織資料以實作更加快速的文檔檢索。圖書館是這些資訊檢索系統的第一代使用者。研究者開發了模糊查詢系統。例如,使用者可以發出“請查找關于資訊檢索的文檔”,而傳回的文檔中不一定包含“資訊檢索”這個字元串。今天,網際網路就是一個巨大的無結構的存儲系統。在網際網路上進行關鍵詞檢索非常快速但卻不夠準确,是以,有效的網際網路資訊檢索仍然是一個困難的問題(dreyfus 2001)。

gartner group将現代的“大資料”定義為4v:資料體量巨大(volume)、資料的産生速度快(velocity)、資料的表現格式豐富(variety)、資料對決策活動具有重要的支援作用(veracity is important to decisions)。從2014年開始,資料科學的課程或關于資料科學的研究中心在大學和其他研究機構中如雨後春筍般出現。多個領域都涉及其中,例如,來自運籌學和統計學領域的分析師、來自計算機科學和資訊系統領域的架構設計師以及來自模組化和仿真領域的可視化工程師。這些實踐和研究活動也确立了“資料科學”領域的主要研究問題:尋找對大規模資料集進行處理和分析的科學理論基礎。

表2.4給出了大資料領域涉及的人、問題以及計算基本原理。

《偉大的計算原理》一大資料