【對話生成】常見對話生成資料集整理,含下載下傳連結(持續更新)
- 前言
- 用于對話了解的對話資料集
-
- IEMOCAP
- SEMAINE
- Mastodon
- MELD
- EMOTyDA
- MEmoR
- 正常開放域對話資料集
-
- OpenSubtitles
- Cornell Movie-Dialogs
- STC
- Ubuntu Dialogue Corpus
- Douban Conversation Corpus
- LCCC
- OpenViDial
- PchatbotW
- WDC-Dialogue
- 待更新
- 情感對話資料集
-
- DailyDialog
- ESTC
- EMPATHETICDIALOGUES
- ESConv
- 待更新
- 個性對話資料集
-
- PERSONA-CHAT
- PersonalDialog
- 待更新
- 政策控制對話生成
-
- PsyQA
- 待更新
前言
本文主要整理對話生成領域相關的資料集,尤其是開放域對話生成。目前可以把開放域對話生成任務劃分為:傳統開放域對話生成、多模态對話生成、情感對話生成、個性化對話生成、政策控制對話生成等。筆者的劃分是根據自己對該任務研究進展梳理而得到的了解,并不一定合理。
用于對話了解的對話資料集
IEMOCAP
釋出時間:2008年
論文連結:https://link.springer.com/article/10.1007/s10579-008-9076-6
資料集連結:https://sail.usc.edu/iemocap/
資料集語言:英文
資料集模态:視訊、音頻、文本
資料集描述:IEMOCAP主要用于對話情感識别,包含151個對話、7433個語句、10個對話角色、10種情感标簽。
SEMAINE
釋出時間:2012年
論文連結:https://ieeexplore.ieee.org/document/5959155
資料集連結:https://semaine-db.eu/
資料集語言:英文
資料集模态:視訊、音頻、文本
資料集描述:SEMAINE主要用于對話情感識别,由四個固定形象的機器人與人進行對話,标注了4個情感次元:Valence (愉悅度), Arousal (激活度), Expectancy (預期), Power (力量)。Valence表示情感積極的程度,Arousal表示興奮的程度,Expectancy表示與預期相符的程度,Power表示情感影響力。其中Valence、Arousa和Expectancy為[-1, 1]範圍内的連續值,Power為大于等于0的連續值。
Mastodon
釋出時間:2018年
論文連結:https://www.aclweb.org/anthology/C18-1063/
資料集連結:https://github.com/cerisara/DialogSentimentMastodon
資料集語言:英文
資料集模态:文本
資料集描述:Mastodon主要用于對話當中的情感與對話動作(DA)識别,尤其是聯合識别任務。它包括535個對話、2217個語句,标注了3大類情感标簽、27類對話動作(DA)。
MELD
釋出時間:2019年
論文連結:https://www.aclweb.org/anthology/P19-1050
資料集連結:https://affective-meld.github.io/
資料集語言:英文
資料集模态:視訊、音頻、文本
資料集描述:MELD主要用于對話中的情感識别,也有部分論文将其用于情感對話生成或者多模态對話生成。它包括1433個對話、13708個語句,提供了3大類粗粒度情感标簽以及7種細粒度情感标簽。視訊被切割成按語句劃分的短視訊,可以通過語句索引獲得該語句對應的視訊。
EMOTyDA
釋出時間:2020年
論文連結:https://www.aclweb.org/anthology/2020.acl-main.402/
資料集連結:https://github.com/sahatulika15/EMOTyDA
資料集語言:英文
資料集模态:視訊、音頻、文本
資料集描述:EMOTyDA是一個類似于Mastodon的對話資料集,它主要整理了IEMOCAP以及MELD資料集,并且增加了12種常見的對話動作标簽,最終包括了1341個對話以及19365個對話語句。可以用于情感和DA的聯合識别任務。
MEmoR
釋出時間:2020年
論文連結:https://dl.acm.org/doi/10.1145/3394171.3413909
資料集連結:https://github.com/sunlightsgy/MEmoR
資料集語言:英文
資料集模态:視訊、音頻、文本
資料集描述:MEmoR資料集主要用于多模态情感推理(ER),包括8536個對話以及22732個語句,提供了14種情感标簽并且對64個說話人标注了16PF、Big Five、MBTI三種個性特質用于輔助情感推理。我認為該資料集還可以用于情感對話或者個性化對話任務。
正常開放域對話資料集
OpenSubtitles
釋出時間:2009年
論文連結:http://www.lrec-conf.org/proceedings/lrec2016/pdf/947_Paper.pdf
資料集連結:http://nlp.stanford.edu/data/OpenSubData.tar
資料集連結2:https://opus.nlpl.eu/OpenSubtitles-v2018.php
資料集語言:多語言(62種語言)
資料集模态:文本
資料集描述:OpenSubtitles主要用于開放域對話生成,包含2.6 billion語句。
Cornell Movie-Dialogs
釋出時間:2011年
論文連結:https://www.aclweb.org/anthology/W11-0609/
資料集連結:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
資料集語言:英文
資料集模态:文本
資料集描述:Cornell Movie-Dialogs包含從原始電影腳本中提取的大量中繼資料豐富的虛構對話集合,10,292 對電影角色之間的 220,579 次對話交流, 涉及 617 部電影中的 9,035 個角色,總共 304,713 條話語。
STC
釋出時間:2015年
論文連結:https://www.aclweb.org/anthology/P15-1152/
資料集連結:https://coai-dataset.oss-cn-beijing.aliyuncs.com/STC-corpus.zip
資料集語言:中文
資料集模态:文本
資料集描述:STC是從微網誌爬取的語料構造的短文本對話(Short-Text Conversation)資料集,包含4.4 million個對話,。這裡的資料集下載下傳連結來自項目CDial-GPT。
Ubuntu Dialogue Corpus
釋出時間:2015年
論文連結:https://www.aclweb.org/anthology/W15-4640/
資料集連結:https://github.com/rkadlec/ubuntu-ranking-dataset-creator
資料集語言:英文
資料集模态:文本
資料集描述:該資料集包含930,000個對話,7,100,000個語句,平均對話輪次為7.71輪,常用于開放域對話生成。
Douban Conversation Corpus
釋出時間:2017年
論文連結:https://www.aclweb.org/anthology/P17-1046/
資料集連結:https://github.com/MarkWuNLP/
資料集語言:中文
資料集模态:文本
資料集描述:Douban資料集主要爬取自中文豆瓣論壇,包含1.1M個對話,7.7M個語句。
LCCC
釋出時間:2020年
論文連結:https://arxiv.org/abs/2008.03946
資料集連結:https://github.com/thu-coai/CDial-GPT
資料集語言:中文
資料集模态:文本
資料集描述:LCCC資料集分為base和large兩個版本,主要用于預訓練大規模對話生成模型,其base版本包括了12M個對話,32.9M個對話語句。
OpenViDial
釋出時間:2020年
論文連結:https://arxiv.org/abs/2012.15015
資料集連結:https://github.com/ShannonAI/OpenViDial
資料集語言:英文
資料集模态:圖像、文本
資料集描述:OpenViDial 中的資料來自電影與電視劇,使用 OCR 從視訊中抽取出對話文本,并配以目前對話所在的圖像,是以,每一句話都有相應視覺背景,最終形成包含百萬餘條句子的大規模多模态對話資料集。其包含了1.1M個對話語句+視覺背景。
PchatbotW
釋出時間:2021年
論文連結:https://arxiv.org/abs/2009.13284
資料集連結:https://github.com/qhjqhj00/Pchatbot
資料集語言:中文
資料集模态:文本
資料集描述:PchatbotW主要從微網誌爬取得到,包括了139,448,339個對話、 278,896,678,并且提供了時間戳和使用者ID兩種個性資訊,可以隐式地模組化說話者的個性。
WDC-Dialogue
釋出時間:2021年
論文連結:https://arxiv.org/pdf/2108.01547.pdf
資料集連結:https://github.com/thu-coai/EVA
資料集語言:中文
資料集模态:文本
資料集描述:這是一個超大規模的中文對話資料集,其平均輪次為2.1,是以我認為其是單輪對話資料集比較妥當。該資料集包括了1.4B個對話,以及3.0B個語句,其規模可以說是前所未有的大!
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模态:
資料集描述:
情感對話資料集
DailyDialog
釋出時間:2017年
論文連結:https://www.aclweb.org/anthology/I17-1099/
資料集連結:http://yanran.li/dailydialog
資料集語言:英文
資料集模态:文本
資料集描述:DailyDialog主要包括13118個對話、102K個對話語句,标注了7種情感、4類對話動作(DA)以及10個對話主題。可以用于對話情感識别、對話動作識别任務,以及情感對話生成任務。
ESTC
釋出時間:2018年
論文連結:https://arxiv.org/abs/1704.01074
資料集連結:http://coai.cs.tsinghua.edu.cn/hml/challenge2017/
資料集語言:中文
資料集模态:文本
資料集描述:ESTC資料集是在STC資料集的基礎上,使用一個訓練好的文本情感分類器得到,通過文本情感分類器,自動标注了6類情感标簽,常用于中文情感對話生成任務。
EMPATHETICDIALOGUES
釋出時間:2019年
論文連結:https://www.aclweb.org/anthology/P19-1534/
資料集連結:https://github.com/facebookresearch/EmpatheticDialogues
資料集語言:英文
資料集模态:文本
資料集描述:EMPATHETICDIALOGUES主要用于共情對話生成,由25000個對話組成,提供了32種情感标簽。
ESConv
釋出時間:2021年
論文連結:https://arxiv.org/abs/2106.01144
資料集連結:https://github.com/thu-coai/Emotional-Support-Conversation
資料集語言:英文
資料集模态:文本
資料集描述:ESConv包括了1053個對話、31410個語句,提供了7種負向情緒、5個負向情緒問題以及8種情感支援政策。伴随着該資料集誕生的是首次出現的情感支援對話(ESC)任務。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模态:
資料集描述:
個性對話資料集
PERSONA-CHAT
釋出時間:2018年
論文連結:https://www.aclweb.org/anthology/P18-1205/
資料集連結:https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
資料集語言:英文
資料集模态:文本
資料集描述:PERSONA-CHAT包括10981個對話以及164356個語句,由1155個人參與對話,每個人指定了至少5句profile句子表示其個性。
PersonalDialog
釋出時間:2019年
論文連結:https://arxiv.org/abs/1901.09672
資料集連結:https://github.com/silverriver/PersonalDilaog
Please contact [[email protected]] for the PersonalDialog dataset
資料集語言:中文
資料集模态:文本
資料集描述:該資料集包括20.83M個對話、56.25M個句子,對于每個說話人,提供了5種個性特征(Age, Gender, Location, Interest, self descriptions)。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模态:
資料集描述:
政策控制對話生成
PsyQA
釋出時間:2021年
論文連結:https://arxiv.org/abs/2106.01702
資料集連結:https://github.com/thu-coai/PsyQA
資料集語言:中文
資料集模态:文本
資料集描述:一個用于生成心理健康支援長篇咨詢文本的中文資料集,該資料集主要收集了壹心理社群的問答資料,标注了6種助人政策,總共包括了22346個問題以及56063個回複。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模态:
資料集描述: