天天看點

《大資料管理概論》一2.4 資料融合技術

資料融合需要用動态的方式統一不同的資料源,将離散的資料轉化為統一的知識資源。另外,大資料的關聯性使得融合步驟之間互相影響,傳統的流水線式融合不再滿足現有融合需求。面對新的融合需求,回報疊代機制顯得極為重要。為此,我們給出資料融合的新的實作步驟:①對齊本體、模式,加速融合效率;②識别相同實體、連結關聯實體;③甄别真僞、合并沖突資料,并将處理結果回報給實體識别階段,提高識别效率;④動态更新知識庫、保持知識的與時俱進。

模式/本體對齊是大資料融合的前提,用于提高融合效率,重點解決對齊演化引起的不一緻性。大資料的海量性和演化性導緻事後補救難度大,是以需要采用“以防為主,防治結合”的政策。此外,還可以變相思維,利用模闆[33,34]在捕捉經驗方面的優勢為頻繁錯配的本體建立對齊模闆以便重複使用。是以,我們認為本體演化對齊應該分三步完成,即本體的演化管理、不一緻性的預防和補救、對齊模闆的挖掘。本體演化重點需要關注原子本體的變化和描述,而本體演化的形式化方法可以借鑒類型化的圖文法(typed graph grammars,tgg)和代數圖變換(algebraic graph transformations,agt)。tgg是一種數學形式體系,用于表達和管理圖。

此外,本體依賴于實體和合作方式,當領域表示發生演變頻繁或有新的要求必須考慮時,本體也會頻繁和連續地變化,并且通常本體較大且建構代價大。是以,本體必須能夠适應演化、修改和改進,進而保持本體一緻。然而,這個過程是極具挑戰性的,因為它往往很難了解本體變化部分所受的影響。是以,需要對本體進行模組化,那麼也就不可避免地涉及了本體語言,通用的本體語言是ontology web language (owl),它能有效地捕捉靜态語義但不能滿足本體實體之間互動變化的一緻性檢查,是以不足以用于形式化變化。目前文獻大多是對本體變化的量化,并沒有對不一緻性進行充分研究。即便給出了解決不一緻性問題的方法,也是不一緻發生以後的解決方法,需要執行變化并使用額外的資源監測本體的一緻性,是以缺乏預防措施來避免不一緻發生。

實體連結是資料融合的基礎,bdf@db中實體以記錄的形式表示,實體連結也即記錄連結,實作步驟包括分塊、兩兩比對和聚類;bdf@c&a中實體連結的實作步驟包括實體識别、實體消歧和共指識别。由2.3.3節的分析可知實體識别與兩兩比對、共指識别與聚類作用相當;而實體消歧包含在bdf@db中的沖突解決中。是以我們将大資料融合中的實體連結步驟分為分塊、實體識别和共指識别。它的不同之處在于如下幾方面。

第一,實體的屬性特征以及所在的語境資訊、沖突實體的解決結果和共指識别結果都可能對實體識别産生影響。但是現有的實體連結基本是實體識别、沖突解決(重點是實體消歧)、共指識别串行化執行,不感覺彼此的互相影響。這樣做有3方面的弊端:實體識别過程中産生的錯誤會依次向後續過程傳播,這種錯誤不可恢複;共指識别和沖突解決的結果不能向前回報;實體識别過程和沖突解決過程可能會産生不一緻的輸出。但實際中這三者互相影響,前者為後兩者提供更多的特征,後兩者為前者提供已消歧的連結資訊輔助聚類。是以,識别實體應該是實體識别、沖突解決、共指識别三者疊代優化、逐漸求精的過程。

第二,實體之間的語義關聯性較強,并且存在演化性,這對共指識别提出了挑戰,已有方法沒有考慮可靠性和更新程度、局部決策對與之關聯表象的影響,并且直接面向動态資料,演化模型依賴于訓練資料集和演化證據的品質,比對精度高,但時間代價不是大資料能夠承受的。

第三,需要識别新實體和新關系,這是知識庫擴充的必要手段。此外,推演出的新知識、發現的深度知識,以及得到的普适機理都有可能對實體識别起到啟發作用,是以,回報結果極為重要,是以,大資料中的實體識别不僅需要與資料融合中的沖突解決、共指識别形成内部回報疊代優化,還需要與知識融合中的深度知識發現形成跨環啟發。

第四,複雜實體關聯方法在适用範圍、準确率等方面都存在一定的不足,主要挑戰性在于:非結構化資料中一般不顯式包含屬性名,其實體屬性也不一定都完全出現在結構化資料中,反之亦然。并且,兩類實體之間是需要進行近似比對還是精确比對也需要差別;新實體的發現也是目前的一大難點,關鍵在于相似性判定門檻值的确定沒有有效的解決辦法。

第五,大資料融合向短文本、跨語言、跨領域融合邁進,是以需要相關實體跨語言、跨文檔的關聯,目前研究成果不多。其中,未知連結的處理對于跨語言、跨文檔的連結更加複雜;實體連結中存在隐喻情況,一個實體在多個文檔中出現的情況,提及的邊界重疊的情況,嵌套提及、嵌套連結的情況,以及實體的相關性,這些情況都沒有得到有效的解決,都是目前亟待解決的問題。

沖突解決是大資料融合的必要條件,它的第一要務是消歧。大資料的真實性和演化性是引發沖突的導火索,如資料本身的新鮮度和貢獻給特定查詢的價值量等,這就引發了新鮮度和價值量不同的多真值問題,需要評估資訊品質,合并不确定性資訊。此外,知識融合中推演出的關系也可能對其起到啟發作用,需要将這種新知識動态地引入沖突解決過程,并保持這種知識的演化。是以,沖突解決應該經曆真假甄别、不确定性合并和演化模組化三個步驟。此外,所有沖突解決技術都有一個假定前提,即假定模式對齊和實體識别已完成,并且資料也已經對齊。但這個假設在大資料環境下過于理想化,是以沖突解決需要在資料融合内部與實體連結形成

回報。

目前,沖突解決的側重點在于知識的真假甄别,并假設假值服從均勻分布,不比對即為完全不同。但這個假設在現實中過于絕對,以至于已有方法不能很好地處理錯誤産生的不确定性。此外,消歧方法依賴于實際參照資料的可用性(如資料标注),參照資料一般源于維基百科,缺乏領域性和針對性,這使得實用性變窄。對于其他領域,如新聞,僅有一小部分标注樣本可用,是以必須采取超越維基百科的消歧政策。

對于不确定因素,主要難點在于針對新鮮度和價值量不同的多真值問題,如何設計品質評估函數。演化行為也是引起不确定性的一個因素,對于演化模組化,雖然現有方法捕獲了實體屬性值的改變,但未考慮屬性值變化的複雜模式,如用屬性的再現機率模組化實體演化,當一個屬性值在後續時間内不再出現,則所有情況下記錄表示同一實體的可能性相同,但這個說法與實際相悖。如一個講師在兩年後成為副教授是可能的,但一年後變為助教的可能性是不存在的,明顯前一種表示同一實體的可能性遠大于後一種,而現有方法則認為這種機率相同。這說明,模組化變化需要考慮屬性本身的變化模式,如語義相關度等。

知識庫是資料融合的結果,也是大資料融合的中轉站。随着資料的産生、資訊的傳播,會有源源不斷的知識擴充到知識庫。知識庫包含三種知識,即從資料源抽取的直接知識,由現存知識庫、關系資料庫和以半結構化形式存儲的曆史資料(如xml、json、csv等)直接轉化來的轉化知識,以及知識融合回報來的深度知識。知識庫的生命周期分為3個階段:第1階段是自适應抽取政策抽取直接知識建構基本知識庫或擴充知識庫;第2階段用轉化知識和深度知識通過自動化增量更新擴充知識庫;第3階段定位事實和溯源知識庫。

自适應抽取首先需要設定文法-語義的抽取模式,然後采用自調整和回報調整調整抽取政策。自調整通常采用模糊本體技術識别并以機率方式檢測可能性,回報調整主要是借助抽取結果資訊以及知識融合過程中回報回來的資訊調整抽取模式。對于更新政策,目前大多采用人工幹預的增量更新方法,但是随着知識庫的不斷積累,依靠人工制定更新規則和逐條檢測将不能滿足需求,是以需要自動化、批量更新(比如子圖到子圖的更新政策),這樣就必須確定自動化更新的有效性。此外知識庫的自适應發展需要動态的方式統一不同的資料源,這個過程對使用者透明,缺乏可解釋性和可操作性,并且大資料的海量性和動态演化加大了錯誤恢複的難度,是以需要建立知識庫的可溯源機制。

對于新擷取的3種知識所包含的實體、關系以及實體屬性資訊中可能包含大量備援資訊和錯誤資訊,是以需要通過實體連結技術和沖突解決技術對執行個體和關系進行統一化處理以減少資料備援;并且直接抽取的關系都是扁平化的關系,缺乏層次性和邏輯性,需要對概念表達方式進行統一化處理,并将新本體融入本體庫。3種知識中轉化知識屬于高品質知識,可以使用現成的轉換工具直接轉換;而直接知識品質較低,還需要對齊以進行驗證和評估,以確定知識庫内容的一緻性和準确性,通常采用的方法是在評估過程中為新加入的知識賦予可信度值,據此進行知識的過濾和融合。

繼續閱讀