《大資料內建(1)》一第2章模式對齊

2021-11-08 13:37:49

本節書摘來自華章出版社《大資料內建(1)》一書中的第2章，作者 [美] 董欣（xin luna dong）戴夫士·斯裡瓦斯塔瓦（divesh srivastava），更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

　　資料內建的第一部分是模式對齊。如我們第1.2.3節中所示，在同一領域有上萬乃至千萬的資料源，但是它們常常用不同的模式來描述該領域。例如，在1.1節的例子中，航班領域的4個資料源使用非常不同的模式；它們包含不同數目的表格和不同數目的屬性；它們可能對同一屬性使用不同的名字（如airline2.flight表中的scheduled arrival date屬性和airport3.arrivals表中的scheduled屬性）；它們可能使用相同的名字表示具有不同語義的屬性（如arrival time在一個資料源表示飛機着陸時間，而在另外一個資料源表示飛機到達登機口的時間）。要将不同資料源的資料內建起來，第一步是對齊不同的模式以明白哪些屬性具有相同的語義而哪些不相同。

　　在剛開始資料內建時，目标通常是內建一個組織内獨立建構的成百上千的資料源。可以用一些半自動的工具如clio [fagin et al. 2009]來簡化模式對齊。2.1節簡要概述傳統解決方法。

　　大資料環境下的資料內建問題要困難得多。其目标通常不是內建一個組織内的資料，而是內建web上的結構化資料，表現為深網資料、web表格或清單。是以，要內建的資料源從成百計增長到成百萬計；資料的模式也在不斷變化。大資料的海量性和高速性同時也極大地增加了資料的多樣性，因而需要新的技術和基礎架構來解決模式的異構性。

　　2.2節描述資料空間（dataspace）系統如何擴充傳統資料內建的基礎架構來解決大資料的多樣性和高速性。資料空間遵循一種按需服務的原則：一開始提供諸如簡單的關鍵詞搜尋這樣的服務，然後随着時間漸漸地逐漸發展模式對齊并改善搜尋品質。

　　2.3節描述模式對齊的新技術，使其能夠解決內建web上結構化資料時的海量性和多樣性的問題。內建web結構化資料包括通過爬取和索引的技術将深網資料表層化，并內建來自web表格和清單的資料。

《大資料內建(1)》一第2章模式對齊

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

《大資料內建(1)》一第2章 模式對齊

繼續閱讀

《大資料內建(1)》一第2章模式對齊