天天看点

《大数据集成(1)》一第1章   大数据集成的挑战和机遇

本节书摘来自华章出版社《大数据集成(1)》一书中的第1章,作者 [美] 董欣(xin luna dong)戴夫士·斯里瓦斯塔瓦(divesh srivastava),更多章节内容可以访问云栖社区“华章计算机”公众号查看

  大数据时代是数据化的必然结果:我们能将世界中的每个事件和交互都转化成数字数据,同时期望从这些数据中分析和抽取出价值。大数据带来许多愿景,使我们能做出由数据驱动的有价值的决策,并以此来改变社会的方方面面。

  当前各种各样的领域都在产生和使用着大数据,包括数据驱动的科学、电信、社交媒体、大型电子商务、病历和电子健康(e-health)等等。由于不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据集成(big data integration, bdi)问题是在各领域内实现大数据美好愿景的关键。

  例如,最近有很多工作通过挖掘万维网抽取出实体、关系以及本体等,以构建通用知识库,如freebase [bollacker et al. 2008]、google知识图谱 [dong et al. 2014a]、probase [wu et al. 2012]和yago [weikum and theobald 2010]等。这些工作均显示,使用集成的大数据可以改善web搜索和web规模的数据分析。

  另一个重要的例子是,近年来产生了大量有地理参照的数据,如有地理标记的web对象(如照片、视频、推文)、在线登记(如foursquare)、wifi日志、车辆的gps轨迹(如出租车)以及路边传感器网络等。这些集成的大数据为刻画大规模人类移动提供了契机[becker et al. 2013],并对公共卫生、交通工程和城市规划等领域产生了影响。

  本章中,1.1节描述大数据集成的问题和传统数据集成的要素。1.2节讨论bdi带来的特定挑战。我们首先确定bdi不同于传统数据集成的方面,然后给出几个研究bdi中数据源特性的最新研究案例。bdi还提供了传统数据集成不能提供的机会,1.3节重点介绍其中的一些机会。最后,1.4节给出本书其余部分的章节安排。

继续阅读