“基于文档的对话生成”(DBD)属于主题受限的对话,聊天双方需要根据给定的文档展开互动。这里的文档属于提供给模型的外部知识

文档只是外部知识的一种形式,“知识”还可以是数据库、图谱、关键词等形式。引入外部知识是为了限制模型的输出范围,让聊天围绕某一个特定的主题展开。

DBD也是近几年自然语言处理研究的热点之一。本文分享6个我最近收集的公开权威数据集,供大家参考。

1. Wizard of Wikipedia - ICLR 2019

下载地址:
https://github.com/facebookresearch/ParlAI/tree/master/projects/wizard_of_wikipedia

2. CMUDoG - EMNLP 2018

下载地址:

https://github.com/festvox/datasets-CMU_DoG

3. Movie-chats - EMNLP 2020

下载地址:

https://github.com/chin-gyou/MovieChats

4. Persona - ACL 2018

下载地址:

https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat

5. Reddit Conversation Corpus (RCC) - ACL 2019

下载地址:

https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat

6. doc2dial - ACL 2021

下载地址:

https://github.com/doc2dial/sharedtask-dialdoc2021

内容中包含的图片若涉及版权问题,请及时与我们联系删除