天天看點

【對話生成】常見對話生成資料集整理,含下載下傳連結(更新至2021.09.02)前言用于對話了解的對話資料集正常開放域對話資料集情感對話資料集個性對話資料集政策控制對話生成

【對話生成】常見對話生成資料集整理,含下載下傳連結(持續更新)

  • 前言
  • 用于對話了解的對話資料集
    • IEMOCAP
    • SEMAINE
    • Mastodon
    • MELD
    • EMOTyDA
    • MEmoR
  • 正常開放域對話資料集
    • OpenSubtitles
    • Cornell Movie-Dialogs
    • STC
    • Ubuntu Dialogue Corpus
    • Douban Conversation Corpus
    • LCCC
    • OpenViDial
    • PchatbotW
    • WDC-Dialogue
    • 待更新
  • 情感對話資料集
    • DailyDialog
    • ESTC
    • EMPATHETICDIALOGUES
    • ESConv
    • 待更新
  • 個性對話資料集
    • PERSONA-CHAT
    • PersonalDialog
    • 待更新
  • 政策控制對話生成
    • PsyQA
    • 待更新

前言

本文主要整理對話生成領域相關的資料集,尤其是開放域對話生成。目前可以把開放域對話生成任務劃分為:傳統開放域對話生成、多模态對話生成、情感對話生成、個性化對話生成、政策控制對話生成等。筆者的劃分是根據自己對該任務研究進展梳理而得到的了解,并不一定合理。

用于對話了解的對話資料集

IEMOCAP

釋出時間:2008年

論文連結:https://link.springer.com/article/10.1007/s10579-008-9076-6

資料集連結:https://sail.usc.edu/iemocap/

資料集語言:英文

資料集模态:視訊、音頻、文本

資料集描述:IEMOCAP主要用于對話情感識别,包含151個對話、7433個語句、10個對話角色、10種情感标簽。

SEMAINE

釋出時間:2012年

論文連結:https://ieeexplore.ieee.org/document/5959155

資料集連結:https://semaine-db.eu/

資料集語言:英文

資料集模态:視訊、音頻、文本

資料集描述:SEMAINE主要用于對話情感識别,由四個固定形象的機器人與人進行對話,标注了4個情感次元:Valence (愉悅度), Arousal (激活度), Expectancy (預期), Power (力量)。Valence表示情感積極的程度,Arousal表示興奮的程度,Expectancy表示與預期相符的程度,Power表示情感影響力。其中Valence、Arousa和Expectancy為[-1, 1]範圍内的連續值,Power為大于等于0的連續值。

Mastodon

釋出時間:2018年

論文連結:https://www.aclweb.org/anthology/C18-1063/

資料集連結:https://github.com/cerisara/DialogSentimentMastodon

資料集語言:英文

資料集模态:文本

資料集描述:Mastodon主要用于對話當中的情感與對話動作(DA)識别,尤其是聯合識别任務。它包括535個對話、2217個語句,标注了3大類情感标簽、27類對話動作(DA)。

MELD

釋出時間:2019年

論文連結:https://www.aclweb.org/anthology/P19-1050

資料集連結:https://affective-meld.github.io/

資料集語言:英文

資料集模态:視訊、音頻、文本

資料集描述:MELD主要用于對話中的情感識别,也有部分論文将其用于情感對話生成或者多模态對話生成。它包括1433個對話、13708個語句,提供了3大類粗粒度情感标簽以及7種細粒度情感标簽。視訊被切割成按語句劃分的短視訊,可以通過語句索引獲得該語句對應的視訊。

EMOTyDA

釋出時間:2020年

論文連結:https://www.aclweb.org/anthology/2020.acl-main.402/

資料集連結:https://github.com/sahatulika15/EMOTyDA

資料集語言:英文

資料集模态:視訊、音頻、文本

資料集描述:EMOTyDA是一個類似于Mastodon的對話資料集,它主要整理了IEMOCAP以及MELD資料集,并且增加了12種常見的對話動作标簽,最終包括了1341個對話以及19365個對話語句。可以用于情感和DA的聯合識别任務。

MEmoR

釋出時間:2020年

論文連結:https://dl.acm.org/doi/10.1145/3394171.3413909

資料集連結:https://github.com/sunlightsgy/MEmoR

資料集語言:英文

資料集模态:視訊、音頻、文本

資料集描述:MEmoR資料集主要用于多模态情感推理(ER),包括8536個對話以及22732個語句,提供了14種情感标簽并且對64個說話人标注了16PF、Big Five、MBTI三種個性特質用于輔助情感推理。我認為該資料集還可以用于情感對話或者個性化對話任務。

正常開放域對話資料集

OpenSubtitles

釋出時間:2009年

論文連結:http://www.lrec-conf.org/proceedings/lrec2016/pdf/947_Paper.pdf

資料集連結:http://nlp.stanford.edu/data/OpenSubData.tar

資料集連結2:https://opus.nlpl.eu/OpenSubtitles-v2018.php

資料集語言:多語言(62種語言)

資料集模态:文本

資料集描述:OpenSubtitles主要用于開放域對話生成,包含2.6 billion語句。

Cornell Movie-Dialogs

釋出時間:2011年

論文連結:https://www.aclweb.org/anthology/W11-0609/

資料集連結:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

資料集語言:英文

資料集模态:文本

資料集描述:Cornell Movie-Dialogs包含從原始電影腳本中提取的大量中繼資料豐富的虛構對話集合,10,292 對電影角色之間的 220,579 次對話交流, 涉及 617 部電影中的 9,035 個角色,總共 304,713 條話語。

STC

釋出時間:2015年

論文連結:https://www.aclweb.org/anthology/P15-1152/

資料集連結:https://coai-dataset.oss-cn-beijing.aliyuncs.com/STC-corpus.zip

資料集語言:中文

資料集模态:文本

資料集描述:STC是從微網誌爬取的語料構造的短文本對話(Short-Text Conversation)資料集,包含4.4 million個對話,。這裡的資料集下載下傳連結來自項目CDial-GPT。

Ubuntu Dialogue Corpus

釋出時間:2015年

論文連結:https://www.aclweb.org/anthology/W15-4640/

資料集連結:https://github.com/rkadlec/ubuntu-ranking-dataset-creator

資料集語言:英文

資料集模态:文本

資料集描述:該資料集包含930,000個對話,7,100,000個語句,平均對話輪次為7.71輪,常用于開放域對話生成。

Douban Conversation Corpus

釋出時間:2017年

論文連結:https://www.aclweb.org/anthology/P17-1046/

資料集連結:https://github.com/MarkWuNLP/

資料集語言:中文

資料集模态:文本

資料集描述:Douban資料集主要爬取自中文豆瓣論壇,包含1.1M個對話,7.7M個語句。

LCCC

釋出時間:2020年

論文連結:https://arxiv.org/abs/2008.03946

資料集連結:https://github.com/thu-coai/CDial-GPT

資料集語言:中文

資料集模态:文本

資料集描述:LCCC資料集分為base和large兩個版本,主要用于預訓練大規模對話生成模型,其base版本包括了12M個對話,32.9M個對話語句。

OpenViDial

釋出時間:2020年

論文連結:https://arxiv.org/abs/2012.15015

資料集連結:https://github.com/ShannonAI/OpenViDial

資料集語言:英文

資料集模态:圖像、文本

資料集描述:OpenViDial 中的資料來自電影與電視劇,使用 OCR 從視訊中抽取出對話文本,并配以目前對話所在的圖像,是以,每一句話都有相應視覺背景,最終形成包含百萬餘條句子的大規模多模态對話資料集。其包含了1.1M個對話語句+視覺背景。

PchatbotW

釋出時間:2021年

論文連結:https://arxiv.org/abs/2009.13284

資料集連結:https://github.com/qhjqhj00/Pchatbot

資料集語言:中文

資料集模态:文本

資料集描述:PchatbotW主要從微網誌爬取得到,包括了139,448,339個對話、 278,896,678,并且提供了時間戳和使用者ID兩種個性資訊,可以隐式地模組化說話者的個性。

WDC-Dialogue

釋出時間:2021年

論文連結:https://arxiv.org/pdf/2108.01547.pdf

資料集連結:https://github.com/thu-coai/EVA

資料集語言:中文

資料集模态:文本

資料集描述:這是一個超大規模的中文對話資料集,其平均輪次為2.1,是以我認為其是單輪對話資料集比較妥當。該資料集包括了1.4B個對話,以及3.0B個語句,其規模可以說是前所未有的大!

待更新

釋出時間:

論文連結:

資料集連結:

資料集語言:

資料集模态:

資料集描述:

情感對話資料集

DailyDialog

釋出時間:2017年

論文連結:https://www.aclweb.org/anthology/I17-1099/

資料集連結:http://yanran.li/dailydialog

資料集語言:英文

資料集模态:文本

資料集描述:DailyDialog主要包括13118個對話、102K個對話語句,标注了7種情感、4類對話動作(DA)以及10個對話主題。可以用于對話情感識别、對話動作識别任務,以及情感對話生成任務。

ESTC

釋出時間:2018年

論文連結:https://arxiv.org/abs/1704.01074

資料集連結:http://coai.cs.tsinghua.edu.cn/hml/challenge2017/

資料集語言:中文

資料集模态:文本

資料集描述:ESTC資料集是在STC資料集的基礎上,使用一個訓練好的文本情感分類器得到,通過文本情感分類器,自動标注了6類情感标簽,常用于中文情感對話生成任務。

EMPATHETICDIALOGUES

釋出時間:2019年

論文連結:https://www.aclweb.org/anthology/P19-1534/

資料集連結:https://github.com/facebookresearch/EmpatheticDialogues

資料集語言:英文

資料集模态:文本

資料集描述:EMPATHETICDIALOGUES主要用于共情對話生成,由25000個對話組成,提供了32種情感标簽。

ESConv

釋出時間:2021年

論文連結:https://arxiv.org/abs/2106.01144

資料集連結:https://github.com/thu-coai/Emotional-Support-Conversation

資料集語言:英文

資料集模态:文本

資料集描述:ESConv包括了1053個對話、31410個語句,提供了7種負向情緒、5個負向情緒問題以及8種情感支援政策。伴随着該資料集誕生的是首次出現的情感支援對話(ESC)任務。

待更新

釋出時間:

論文連結:

資料集連結:

資料集語言:

資料集模态:

資料集描述:

個性對話資料集

PERSONA-CHAT

釋出時間:2018年

論文連結:https://www.aclweb.org/anthology/P18-1205/

資料集連結:https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat

資料集語言:英文

資料集模态:文本

資料集描述:PERSONA-CHAT包括10981個對話以及164356個語句,由1155個人參與對話,每個人指定了至少5句profile句子表示其個性。

PersonalDialog

釋出時間:2019年

論文連結:https://arxiv.org/abs/1901.09672

資料集連結:https://github.com/silverriver/PersonalDilaog

Please contact [[email protected]] for the PersonalDialog dataset

資料集語言:中文

資料集模态:文本

資料集描述:該資料集包括20.83M個對話、56.25M個句子,對于每個說話人,提供了5種個性特征(Age, Gender, Location, Interest, self descriptions)。

待更新

釋出時間:

論文連結:

資料集連結:

資料集語言:

資料集模态:

資料集描述:

政策控制對話生成

PsyQA

釋出時間:2021年

論文連結:https://arxiv.org/abs/2106.01702

資料集連結:https://github.com/thu-coai/PsyQA

資料集語言:中文

資料集模态:文本

資料集描述:一個用于生成心理健康支援長篇咨詢文本的中文資料集,該資料集主要收集了壹心理社群的問答資料,标注了6種助人政策,總共包括了22346個問題以及56063個回複。

待更新

釋出時間:

論文連結:

資料集連結:

資料集語言:

資料集模态:

資料集描述: