天天看點

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統

自然語言問答(QA)是指利用各種技術和資料對使用者提出的自然語言問題直接給出問題答案。QA任務根據所依賴的資料形态可以分成三類,分别是基于知識庫的問答(KB-QA)[1-9]、基于文檔的問答(DB-QA)[10]和社群問答(C-QA)[11]。其中,基于知識庫的問答是指在結構化的知識庫中尋找自然語言問題的答案;基于文檔的問答是指在非結構化的文檔集合中尋找與自然語言問題最比對的語句或者段落,然後通過抽取的方式來确定答案;社群問答則是由人工參與的問答,社群中的使用者可以提出問題或回答别人的問題,系統本身也可能推薦相似的問題或答案,典型的社群問答包括百度問答、知乎和Yahoo Answers等。

本文主要介紹面向知識圖譜的問答系統。知識圖譜是目前知識庫的一種常見的表達形式,是以圖形(Graph)的方式來展現“實體”、實體“屬性”,以及實體之間的“關系”。近年來,随着大資料、人工智能等概念與技術的興起,知識圖譜和KB-QA相關的研究工作和工業應用逐漸引起重視。例如由Amazon收購的EVI系統(原名為TrueKnowledge)[12],就是一種面向開放領域的結構化知識的問答系統;在其2010年發表的論文中提出通過模闆的方式将使用者輸入的自然語言問題轉換成結構化查詢語句,進而得到查詢結果。Facebook定義的Facebook Social Graph,用于連接配接社交網絡的使用者,使用者分享的照片、電影、評論,甚至包括通過Facebook定義的Graph API所連結的第三方的關于社交使用者知識圖譜資料。在所建構的Social Graph基礎上,Facebook推出了Graph Search(圖搜尋)功能,即将使用者的自然語言問題,轉化為面向Social Graph上的圖搜尋問題,進而回答使用者的自然語言問題。另外越來越多的chatbot(聊天機器人)産品中也引入了面向知識圖譜的問答功能,使得chatbot和人互動時使用者可以獲得更多知識方面的回答。IBM的Watson系統在參加智力問答節目《危險邊緣》(Jeopardy)的比賽時,也同樣采用DBpedia和Yago知識圖譜資料來回答某些自然語言問題[13];相比于傳統基于文檔的問答方法,基于知識圖譜的問答其準确度更高,但是這樣方法所能回答的問題相對較少。例如圖1顯示,IBM的Watson系統利用知識圖譜檢索可以回答問題的覆寫面小于傳統利用文本搜尋的覆寫率,但是利用知識圖譜進行問答其精确度要高得多。

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統

面向知識圖譜問答的關鍵在于,如何跨越自然語言的問題語句和結構化知識庫之間的語義鴻溝。目前來講,KB-QA的方法有兩大類,即基于資訊檢索的方法[1-4]和基于語義解析的方法[5-9]。資訊檢索式的方法一般不生成作為中間結果的結構化查詢語句,而是直接從知識圖譜中檢索候選答案,再通過對候選答案進行打分或者排序,進而傳回最終的問題答案;而語義解析式的方法則是通過對自然語言問題進行語義解析,将問題轉化成給定知識庫相應的查詢語言再進行查詢,将查詢結果作為答案傳回。

繼續閱讀