天天看點

《中國人工智能學會通訊》——12.33 衆包知識庫補全方法概覽

本章介紹衆包知識庫補全的方法概覽,如圖 1所示。其基本思想包含兩個部分,其一,利用多種資料源,如現有的多個知識庫、Web 結構化資料等,提取知識資料,并将不同資料源的知識資料融合起來,以此補全知識庫;其二,在融合的過程中有效地利用衆包,通過衆包模型細化出具體可供衆包完成的任務,利用衆包優化算法進行品質和成本的控制,以選擇出最優的任務釋出到衆包平台,如美國亞馬遜公司的 Mechanical Turk ( 簡稱 MTurk) 1 。

《中國人工智能學會通訊》——12.33 衆包知識庫補全方法概覽

知識抽取:提出利用多類資料源進行抽取,其優勢在于使不同源的知識資料互相進行補充,為知識庫補全提供資料基礎。具體考慮以下資料源:① 多 個 現 有 知 識 庫, 如 YAGO [1] 、DBpedia [3] 和Freebase [5] 等,這些知識庫構造的方法不盡相同,資料間存在互補;② Web 結構化資料,如 HTML表格[33] ,這些資料規模巨大且具有一定的結構特征,如微軟在 2012 年報告存在近 6 億的 HTML 表格。在此基礎上,提取知識元組(主語 - 謂詞 - 賓語)。注:由于提出方法的重點在利用衆包,是以在知識抽取方面使用了現有的抽取技術。

衆包模型:建構利用衆包進行知識庫補全的基本模型,即将知識庫補全這一複雜工作分解成細粒度的衆包任務,以分發給大量衆包勞工進行求解。在此過程中,需要進行候選任務的生成和衆包任務的管理工作。具體來講,提出以下三類基本衆包任務。

● 知識标注任務:這類任務要求衆包勞工直接對知識元組的正确性進行判斷,即給定抽取的知識元組 (s, p, o)(符号 s、p 和 o 分别表示主語、謂詞和賓語,是一般表示知識的形式),希望衆包勞工傳回 1(表示元組正确)或是 0(表示元組不正确)。

● 知識連結任務:這類任務利用衆包對不同資料源的知識元組進行連結。具體而言,給定抽取自不同知識源的兩個元組 (s 1 , p 1 , o 1 ) 和 (s 2 , p 2 , o 2 ),這類任務支援以下兩種連結:① 實體連結:即判斷充當主語或賓語的實體間盡管表示不同,但實際指代同一真實實體,可以連結起來;② 關系連結,即判斷關系 p 1 和 p 2 指代的是同一種關系。

● 規則判斷任務:這類任務使用衆包對知識推理的規則進行判斷。知識庫中的其他元組對判斷某一進制組是否存在具有推理作用。具體而言,如要判斷元組 (s, p, o) 是否成立,可以參考将主語 s 和賓語 o 關聯起來的其他元組,如 (s, p 1 , e) 和 (e, p 2 , o)。這類任務就是判斷 (s, p 1 , e) 和 (e, p 2 , o) 如果存在,是否能夠推斷出 (s, p, o) 就很可能存在。

例如,考慮判斷姚明國籍(為了示例,我們假設知識庫中姚明的國籍資訊缺失)。知識标注任務是讓衆包直接判斷 ( 姚明 , 國籍 , 中國 ) 元組是否正确;知識連結任務是将姚明與某籃球隊員 HTML 表格上的姚連結,将關系國籍與如所屬國家連結,以此将該表格上的中國填充到國籍的賓語中。規則判斷任務是讓衆包判斷 ( 姚明 , 出生地 , 上海 )、( 上海 ,所屬國 , 中國 ) 這兩個元組是否對判斷國籍有幫助。

衆包優化:如前所述,衆包知識庫補全面臨着兩大挑戰:① 品質控制:與傳統簡單的衆包工作(如圖檔标注、實體識别)不同,知識庫補全更為複雜,需要衆包勞工具有一定的領域背景知識,如做上述判斷國籍的題目需要對籃球隊員有所了解。為此,本文提出自适應衆包任務配置設定技術,詳見第 3 章;② 成本控制:衆包并不免費。由于知識庫體量巨大,如不能有效地控制成本,衆包知識庫補全會引入難以承受的金錢開銷。為此,本文提出衆包機器協同的補全技術,詳見第 4 章。

繼續閱讀