天天看點

《中國人工智能學會通訊》——1.2 問答與智能資訊擷取

問答系統作為智能表征的研究領域,幾十年來一直受到學術界的關注,國際評測 TREC 曆經十餘年對問答系統從幾個方面進行了評測[4] 。問答系統的發展雜問題的發展過程,逐漸具有了更多的智能行為特性。這個過程并不是一個單純的直線,而是反反複複螺旋式進步。早期的問答系統雖然可以回答特定類型的問題,但是覆寫度和魯棒性都比較差,速度也比較慢,還不能很好地應用在真實的商業系統中。

網際網路大資料的産生,使問答系統在幾個方面獲得了改善的機會。一個是資訊源資料的豐富,使得從人工建構語料庫發展到從網際網路擷取海量有針對性的語料,如問答社群,即時通訊軟體等。另一個是知識庫,從人工定義特定領域知識庫,發展到大規模知識圖 譜 的 構 建, 例 如 YAGO [5] 、Freebase [6] 、Google 的Knowledge Graph [7] 以及 NELL [8] 。這些知識庫從知識工程的角度體系化地組織了人類關于世界的認知,廣度和深度都達到了空前的地步,并且還在不斷的發展中。此外,網際網路還存在海量的多源異構資訊,包括地理資訊、使用者的行為日志等。這些前所未有的資訊内容可以用來建構使用者模型,幫助系統了解使用者意圖,産生更加個性化的答案,改善使用者體驗。

然而,從另外一個角度,網際網路時代給問答系統帶來的最大改變是其在資訊時代的角色轉變。問答系統已經不僅僅是表現、測試計算機系統智能水準的平台,關注點從細節諸如解決事實性問題還是複雜問題,亦或是基于檢索的還是基于資料庫的轉變為更加宏觀與系統。問答系統作為資訊查詢 / 擷取的入口,是一種公認的友好而自然的人機互動形式,一個資訊服務的平台。網際網路的發展使我們從資料缺乏的時代進步到資訊豐富的時代,但是也帶來了資訊過剩的挑戰。對于使用者來說,麻煩已經不是找不到資訊,而是資訊太多,噪音太大。有效率地擷取最符合使用者意圖的資訊,即為所謂的智能資訊擷取已經網際網路資訊處理的重中之重的問題。智能資訊擷取最自然的手段是問答,而問答系統可以通過各種智能資訊處理技術以知識庫和網際網路資料為背景,得到滿足查詢相關性、重要性、時效性等要求的、直截了當的答案,提高系統的魯棒性、覆寫度及工作效率。以智能資訊擷取為目标的問答系統,既可以向通往圖靈測試的道路邁出堅實一步,也是從人本的角度出發,滿足使用者需要,給予使用者最好的智能體驗的,具有非常重要社會效益的計算機系統。因而,問答系統完全從背景走到了前台,而目前成功經曆了從特定領域到非特定領域,從事實性問題到複的問答系統,大多是從這條路線出發:首先對問答的形式、資訊源進行分類細化,針對不同的問題類型進行問題解析、答案候選生成,以及答案排序等工作,涉及到自然語言處理、資訊檢索、知識計算、推理等衆多人工智能相關技術,取得了很多的成就,并随着深度學習等新一代智能計算模型的發展而進步,有着美好的前景。