2016年美國crowdflower公司從業内80位資料科學家那裡得到的調查結果顯示,他們平均花費在資料收集和整理上的時間占到整個資料分析過程的80%,而隻有餘下20%的時間才是真正用來分析資料的。
這就是我們通常所說的資料分析過程,其實有一大部分時間都用在了前期的資料的收集和整理上。那麼收集和整理又為什麼如此耗時呢?
随着數字化和資訊化的深入,目前的可用資料并非集中于一點,而是廣泛分布在各種檔案、電子表格、分布式資料庫、資料湖和其他軟體系統之中,資料科學研究者需要從各種管道擷取這些資料,過濾其中的有效部分,再将資料組織成便于處理的格式,這一系列的過程都需要耗費大量的精力和時間。
為此,一支國際化的科研團隊近期釋出了一個全新的大資料分析系統——data civilizer,試圖解決這一難題。該系統免去了一定程度的整理過程,可以自動識别不同資料表格之間的内在聯系,并允許使用者以類似查詢資料庫的方式直接操作這些零散的資料表格。更重要的是,使用者還可以将這些查詢結果重新組織成一個有序的新資料庫,以便進行後續的分析和處理。
這裡之是以稱civilizer系統的研發團隊是一支國際化的團隊,是因為其主要成員并非來自同一個實驗室或者同一所高校,甚至并非同一個國家。例如:來自csail的博士後dong
deng和raul castro fernandez(他們同時也是論文的主要作者),上文提到的sam
madden教授,以及其他6位來自柏林技術大學、南洋理工大學、滑鐵盧大學和卡達計算機研究所的科研人員。另外值得一提的是,盡管并沒有參與論文的撰寫,但來自麻省理工學院電氣工程和計算機科學系的副教授、2014圖靈獎獲得者michael
stonebraker同樣也為這項研究做出了貢獻。
麻省理工學院電氣工程和計算機科學教授,csail大資料教研室主任sam
madden表示:“目前,由于有成千上萬的資料被分散在各種軟體系統中,是以要組織一個龐大的資料集非常困難。civilizer系統可以幫助資料科學家快速找到包含相關資訊的資料表格,并将這些表格集合在一起,建立一個完整的資料庫,進而大大提高了大資料分析的效率。”
civilizer系統假定其處理的所有資料都按照表格的形式組織。但正如sam
madden所說,由于将資料轉換為表格的技術在大資料領域并不是什麼高新的技術,是以這一點并非新研究的重點。類似的,雖然civilizer的系統原型可以從各種不同類型的檔案中提取表格資料,但配合現有程式對資料進行處理卻并非研究者的首要任務。“這部分隻是工程上的工作,而并非科研上的。”sam madden教授表示。
civilizer系統的核心優勢在于逐列分析所有的資料表格,然後得到每一列的統計概要。對于數值資料,概要中可以包括該數值出現的頻率、數值的範圍、數值的基數、以及每列包含的不同數值的個數等。對于文本資料,概要将包含每列中出現頻率最高的詞彙,以及不同詞彙的個數統計。此外,civilizer系統還将對每個出現的詞彙和包含這些詞彙的表格生成一個索引目錄。
此後,系統将對比所有列的統計概要,根據概要内容識别具有高度相似性的列(例如具有相似的數值範圍、相似的詞彙集合的列),并将這些單獨的列兩兩一組,組成一個一個的“列對”。civilizer會為每個列對配置設定彼此相似的權值,并在權值的基礎上生成一個能夠反映列與列之前的連接配接關系、表格與表格之間的連接配接關系的映射圖。
這裡可以通過一個例子來說明civilizer系統的查詢能力:假設一家制藥公司有一些包含藥物品牌名的表格,一些包含藥物化學成分的表格,以及一些包含藥物内部代号的表格。我們不妨稱這些表格為1類,2類和3類。現在假定1和2從未出現在同一個表格中,但至少有一份表格反映1和3的對應關系,以及反映2和3的對應關系。那麼當使用者利用civilizer對所有這些表格展開分析時,對1類的查詢結果也可以包含2類中的資訊。
需要指出的是,civilizer系統的識别結果也有可能是錯誤的。但系統允許使用者丢棄不恰當的查詢結果,保留有效的資料。資料被裁減之後,使用者還可以将結果儲存為一個獨立的資料檔案,友善後續的使用。
merck制藥公司的進階資訊分析師iain wallace表示:“civilizer的技術非常有趣,它或許能幫助資料科學家解決由于可用資料越來越多而引發的一個重要問題:究竟哪些資料集應該被納入分析之列。而且組織機構越龐大,這個問題就越嚴重。”
sam
madden教授表示:“目前我們正在探索如何将civilizer系統作為各種化學和生物學資料集之上的協調層。因為這些資料集通常需要将化合物、疾病和搜尋目标聯系在一起。一個典型例子就是當使用者從一個化合物表格中找到某種特定的化合物後,常常還需要根據這種化合物在其他表格中搜尋更多的附加資訊。civilizer系統允許使用者對所有列資料進行全文搜尋,并自動識别出相關列。通過civilizer,我們可以友善地添加額外資料源,并快速更新之前的分析結果。”
civilize意為使之文明、使之開化,mit将新系統命名為data
civilizer,意思很明顯,是希望通過這個系統讓大資料處理變得更簡單友善,為開發者簡化資料的預處理過程,把更多精力和時間放在真正的資料分析過程中。我們希望以mit的這項最新研究成果為起點,未來可以出現更多類似的資料處理工具,推動資料科學更快的向前發展。
本文作者:恒亮
雷鋒網網