天天看點

《大資料內建(1)》一第1章   大資料內建的挑戰和機遇

本節書摘來自華章出版社《大資料內建(1)》一書中的第1章,作者 [美] 董欣(xin luna dong)戴夫士·斯裡瓦斯塔瓦(divesh srivastava),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

  大資料時代是資料化的必然結果:我們能将世界中的每個事件和互動都轉化成數字資料,同時期望從這些資料中分析和抽取出價值。大資料帶來許多願景,使我們能做出由資料驅動的有價值的決策,并以此來改變社會的方方面面。

  目前各種各樣的領域都在産生和使用着大資料,包括資料驅動的科學、電信、社交媒體、大型電子商務、病曆和電子健康(e-health)等等。由于不同資料進行連結和融合會使資料的價值爆炸性地增大,因而大資料內建(big data integration, bdi)問題是在各領域内實作大資料美好願景的關鍵。

  例如,最近有很多工作通過挖掘網際網路抽取出實體、關系以及本體等,以建構通用知識庫,如freebase [bollacker et al. 2008]、google知識圖譜 [dong et al. 2014a]、probase [wu et al. 2012]和yago [weikum and theobald 2010]等。這些工作均顯示,使用內建的大資料可以改善web搜尋和web規模的資料分析。

  另一個重要的例子是,近年來産生了大量有地理參照的資料,如有地理标記的web對象(如照片、視訊、推文)、線上登記(如foursquare)、wifi日志、車輛的gps軌迹(如計程車)以及路邊傳感器網絡等。這些內建的大資料為刻畫大規模人類移動提供了契機[becker et al. 2013],并對公共衛生、交通工程和城市規劃等領域産生了影響。

  本章中,1.1節描述大資料內建的問題和傳統資料內建的要素。1.2節讨論bdi帶來的特定挑戰。我們首先确定bdi不同于傳統資料內建的方面,然後給出幾個研究bdi中資料源特性的最新研究案例。bdi還提供了傳統資料內建不能提供的機會,1.3節重點介紹其中的一些機會。最後,1.4節給出本書其餘部分的章節安排。

繼續閱讀