天天看點

《中國人工智能學會通訊》——7.9 機器閱讀了解評測資料集

現階段,和閱讀了解相關的資料集主要有以下五個。

1 . MCTest

微 軟 研 究 院 的 研 究 員 Richardson et al [1] 在2013 年的 EMNLP 上釋出了一個資料集。在這個資料集中,所有的文檔都是一些叙述性的故事。它考察的推理能力被限定于一個 7 歲兒童可以接受的範圍内,包含有許多常識性的推理,這些推理既包含事實性的,也包含非事實性的。這個資料集包含有兩部分,一個是 MC160,還有一個是 MC500,分别包含 160 篇和 500 篇文檔。由于這個資料集較為接近我們真實的閱讀了解場景,因而成為閱讀了解相關研究者的首選評測資料集。

2 . bAbi

這個資料集是由 Facebook 人工智能實驗室的研究人員提出[2] ,将問答系統中的任務按照回答方法分成了 20 種,比如單支撐句問題、方位問題等。20 個問題的分類和一些常用方法在這些問題上面的結果如圖 2 所示。

《中國人工智能學會通訊》——7.9 機器閱讀了解評測資料集

由于在這個資料集中,所有的問題和背景文檔都是依靠規則自動生成的,因而資料量比較大(可以無限大)。但是由于包含的資訊太少,主要是用來測試一些推理模型,如 memory Networks 或者神經圖靈機。最新的工作[3]已經可以依靠規則系統,将這 20 類問題全部答對。

3 . CNN&Daily Mail

該資料集是 Google Deepmind 的研究人員在NIPS2015上提出的一個資料集[4] ,資料的構造非常巧妙。首先,作者在兩個新聞語料上(CNN 和 Daily Mail)分别搜集了 11 萬和 21.8 萬篇新聞,每篇新聞都有一些總結句(文章标題或者新聞要點),然後作者将其中的每篇新聞看成一個背景文檔,把總結句中的實體去掉,再把這個去掉實體的标題當成問題。如圖 3 所示。

《中國人工智能學會通訊》——7.9 機器閱讀了解評測資料集

作者用這種自動的方法構造了一個海量的資料集,在這些問題中答案沒有預先給出,但是都可以在原文中得到。這個資料集主要考察哪些答案是實體類型的問題,問題也都是陳述型的問句,因而是一種 cloze(完形填空)型的機器閱讀了解任務。

4 . CBTest

這個資料集也是 Facebook 人工智能實驗室的研究員在 ICLR2016 上釋出的資料[5] ,主要根據兒童讀物的文章建構。其中,每篇文章包含一個故事;每個故事采用人工的方式分為很多小部分;每個部分含有 21 句話,前 20 句話是被當成背景文檔,第21 句話是問題,需要系統對其中缺少的實體或者名詞進行補全。在答案中會事先給出 10 個候選,需要從這 10 個候選中找到正确的一項對空處進行填充。如圖 4 所示。類似于 CNN&Daily Mail 資料集,由于這些問題大部分是實體的,是以也是 cloze(完形填空)型的機器閱讀了解任務。

《中國人工智能學會通訊》——7.9 機器閱讀了解評測資料集

5 . 公開評測

除 了 上 述 公 開 數 據 集 之 外,Cross LingualEvaluation Forum (CLEF) 1 從 2013 年開始每年舉辦“Entrance Exams(入學考試)”問答子任務。該評測資料從日本入學考試中選取,每篇文檔都伴随有若幹問題,每個問題有若幹選項。但是由于考試的内容有限,是以資料集非常小。(2015 年時提供的訓練集大小隻有 19 篇文檔、89 個問題。)

綜上所述,目前各公開的資料集,由于其考察系統閱讀了解能力側重點的不同,是以所構造的資料集的方式、規模和形式也不盡相同。從已有研究成果來看,大部分方法目前主要側重于系統對文本深層次的語義了解能力,是以,大部分機器閱讀了解方法都集中于在 MCTest 資料集進行評測。在下面的章節中,本文也主要圍繞 MCTest 資料集介紹已有的機器閱讀了解方法。

繼續閱讀