《中國人工智能學會通訊》——7.9 機器閱讀了解評測資料集

現階段，和閱讀了解相關的資料集主要有以下五個。

1 . MCTest

微軟研究院的研究員 Richardson et al [1] 在2013 年的 EMNLP 上釋出了一個資料集。在這個資料集中，所有的文檔都是一些叙述性的故事。它考察的推理能力被限定于一個 7 歲兒童可以接受的範圍内，包含有許多常識性的推理，這些推理既包含事實性的，也包含非事實性的。這個資料集包含有兩部分，一個是 MC160，還有一個是 MC500，分别包含 160 篇和 500 篇文檔。由于這個資料集較為接近我們真實的閱讀了解場景，因而成為閱讀了解相關研究者的首選評測資料集。

2 . bAbi

這個資料集是由 Facebook 人工智能實驗室的研究人員提出[2] ，将問答系統中的任務按照回答方法分成了 20 種，比如單支撐句問題、方位問題等。20 個問題的分類和一些常用方法在這些問題上面的結果如圖 2 所示。

由于在這個資料集中，所有的問題和背景文檔都是依靠規則自動生成的，因而資料量比較大（可以無限大）。但是由于包含的資訊太少，主要是用來測試一些推理模型，如 memory Networks 或者神經圖靈機。最新的工作[3]已經可以依靠規則系統，将這 20 類問題全部答對。

3 . CNN&Daily Mail

該資料集是 Google Deepmind 的研究人員在NIPS2015上提出的一個資料集[4] ，資料的構造非常巧妙。首先，作者在兩個新聞語料上（CNN 和 Daily Mail）分别搜集了 11 萬和 21.8 萬篇新聞，每篇新聞都有一些總結句（文章标題或者新聞要點），然後作者将其中的每篇新聞看成一個背景文檔，把總結句中的實體去掉，再把這個去掉實體的标題當成問題。如圖 3 所示。

作者用這種自動的方法構造了一個海量的資料集，在這些問題中答案沒有預先給出，但是都可以在原文中得到。這個資料集主要考察哪些答案是實體類型的問題，問題也都是陳述型的問句，因而是一種 cloze（完形填空）型的機器閱讀了解任務。

4 . CBTest

這個資料集也是 Facebook 人工智能實驗室的研究員在 ICLR2016 上釋出的資料[5] ，主要根據兒童讀物的文章建構。其中，每篇文章包含一個故事；每個故事采用人工的方式分為很多小部分；每個部分含有 21 句話，前 20 句話是被當成背景文檔，第21 句話是問題，需要系統對其中缺少的實體或者名詞進行補全。在答案中會事先給出 10 個候選，需要從這 10 個候選中找到正确的一項對空處進行填充。如圖 4 所示。類似于 CNN&Daily Mail 資料集，由于這些問題大部分是實體的，是以也是 cloze（完形填空）型的機器閱讀了解任務。

5 . 公開評測

除了上述公開數據集之外，Cross LingualEvaluation Forum （CLEF） 1 從 2013 年開始每年舉辦“Entrance Exams（入學考試）”問答子任務。該評測資料從日本入學考試中選取，每篇文檔都伴随有若幹問題，每個問題有若幹選項。但是由于考試的内容有限，是以資料集非常小。（2015 年時提供的訓練集大小隻有 19 篇文檔、89 個問題。）

綜上所述，目前各公開的資料集，由于其考察系統閱讀了解能力側重點的不同，是以所構造的資料集的方式、規模和形式也不盡相同。從已有研究成果來看，大部分方法目前主要側重于系統對文本深層次的語義了解能力，是以，大部分機器閱讀了解方法都集中于在 MCTest 資料集進行評測。在下面的章節中，本文也主要圍繞 MCTest 資料集介紹已有的機器閱讀了解方法。

《中國人工智能學會通訊》——7.9 機器閱讀了解評測資料集

繼續閱讀

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普