《中國人工智能學會通訊》——12.33 衆包知識庫補全方法概覽

本章介紹衆包知識庫補全的方法概覽，如圖 1所示。其基本思想包含兩個部分，其一，利用多種資料源，如現有的多個知識庫、Web 結構化資料等，提取知識資料，并将不同資料源的知識資料融合起來，以此補全知識庫；其二，在融合的過程中有效地利用衆包，通過衆包模型細化出具體可供衆包完成的任務，利用衆包優化算法進行品質和成本的控制，以選擇出最優的任務釋出到衆包平台，如美國亞馬遜公司的 Mechanical Turk ( 簡稱 MTurk) 1 。

知識抽取：提出利用多類資料源進行抽取，其優勢在于使不同源的知識資料互相進行補充，為知識庫補全提供資料基礎。具體考慮以下資料源：① 多個現有知識庫，如 YAGO [1] 、DBpedia [3] 和Freebase [5] 等，這些知識庫構造的方法不盡相同，資料間存在互補；② Web 結構化資料，如 HTML表格[33] ，這些資料規模巨大且具有一定的結構特征，如微軟在 2012 年報告存在近 6 億的 HTML 表格。在此基礎上，提取知識元組（主語 - 謂詞 - 賓語）。注：由于提出方法的重點在利用衆包，是以在知識抽取方面使用了現有的抽取技術。

衆包模型：建構利用衆包進行知識庫補全的基本模型，即将知識庫補全這一複雜工作分解成細粒度的衆包任務，以分發給大量衆包勞工進行求解。在此過程中，需要進行候選任務的生成和衆包任務的管理工作。具體來講，提出以下三類基本衆包任務。

● 知識标注任務：這類任務要求衆包勞工直接對知識元組的正确性進行判斷，即給定抽取的知識元組 (s, p, o)（符号 s、p 和 o 分别表示主語、謂詞和賓語，是一般表示知識的形式），希望衆包勞工傳回 1（表示元組正确）或是 0（表示元組不正确）。

● 知識連結任務：這類任務利用衆包對不同資料源的知識元組進行連結。具體而言，給定抽取自不同知識源的兩個元組 (s 1 , p 1 , o 1 ) 和 (s 2 , p 2 , o 2 )，這類任務支援以下兩種連結：① 實體連結：即判斷充當主語或賓語的實體間盡管表示不同，但實際指代同一真實實體，可以連結起來；② 關系連結，即判斷關系 p 1 和 p 2 指代的是同一種關系。

● 規則判斷任務：這類任務使用衆包對知識推理的規則進行判斷。知識庫中的其他元組對判斷某一進制組是否存在具有推理作用。具體而言，如要判斷元組 (s, p, o) 是否成立，可以參考将主語 s 和賓語 o 關聯起來的其他元組，如 (s, p 1 , e) 和 (e, p 2 , o)。這類任務就是判斷 (s, p 1 , e) 和 (e, p 2 , o) 如果存在，是否能夠推斷出 (s, p, o) 就很可能存在。

例如，考慮判斷姚明國籍（為了示例，我們假設知識庫中姚明的國籍資訊缺失）。知識标注任務是讓衆包直接判斷 ( 姚明 , 國籍 , 中國 ) 元組是否正确；知識連結任務是将姚明與某籃球隊員 HTML 表格上的姚連結，将關系國籍與如所屬國家連結，以此将該表格上的中國填充到國籍的賓語中。規則判斷任務是讓衆包判斷 ( 姚明 , 出生地 , 上海 )、( 上海 ,所屬國 , 中國 ) 這兩個元組是否對判斷國籍有幫助。

衆包優化：如前所述，衆包知識庫補全面臨着兩大挑戰：① 品質控制：與傳統簡單的衆包工作（如圖檔标注、實體識别）不同，知識庫補全更為複雜，需要衆包勞工具有一定的領域背景知識，如做上述判斷國籍的題目需要對籃球隊員有所了解。為此，本文提出自适應衆包任務配置設定技術，詳見第 3 章；② 成本控制：衆包并不免費。由于知識庫體量巨大，如不能有效地控制成本，衆包知識庫補全會引入難以承受的金錢開銷。為此，本文提出衆包機器協同的補全技術，詳見第 4 章。

《中國人工智能學會通訊》——12.33 衆包知識庫補全方法概覽

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普