本節書摘來自華章出版社《大資料內建(1)》一書中的第2章,作者 [美] 董欣(xin luna dong)戴夫士·斯裡瓦斯塔瓦(divesh srivastava),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視
資料內建的第一部分是模式對齊。如我們第1.2.3節中所示,在同一領域有上萬乃至千萬的資料源,但是它們常常用不同的模式來描述該領域。例如,在1.1節的例子中,航班領域的4個資料源使用非常不同的模式;它們包含不同數目的表格和不同數目的屬性;它們可能對同一屬性使用不同的名字(如airline2.flight表中的scheduled arrival date屬性和airport3.arrivals表中的scheduled屬性);它們可能使用相同的名字表示具有不同語義的屬性(如arrival time在一個資料源表示飛機着陸時間,而在另外一個資料源表示飛機到達登機口的時間)。要将不同資料源的資料內建起來,第一步是對齊不同的模式以明白哪些屬性具有相同的語義而哪些不相同。
在剛開始資料內建時,目标通常是內建一個組織内獨立建構的成百上千的資料源。可以用一些半自動的工具如clio [fagin et al. 2009]來簡化模式對齊。2.1節簡要概述傳統解決方法。
大資料環境下的資料內建問題要困難得多。其目标通常不是內建一個組織内的資料,而是內建web上的結構化資料,表現為深網資料、web表格或清單。是以,要內建的資料源從成百計增長到成百萬計;資料的模式也在不斷變化。大資料的海量性和高速性同時也極大地增加了資料的多樣性,因而需要新的技術和基礎架構來解決模式的異構性。
2.2節描述資料空間(dataspace)系統如何擴充傳統資料內建的基礎架構來解決大資料的多樣性和高速性。資料空間遵循一種按需服務的原則:一開始提供諸如簡單的關鍵詞搜尋這樣的服務,然後随着時間漸漸地逐漸發展模式對齊并改善搜尋品質。
2.3節描述模式對齊的新技術,使其能夠解決內建web上結構化資料時的海量性和多樣性的問題。內建web結構化資料包括通過爬取和索引的技術将深網資料表層化,并內建來自web表格和清單的資料。