“基于文档的对话生成”(DBD)属于主题受限的对话,聊天双方需要根据给定的文档展开互动。这里的文档属于提供给模型的外部知识。
文档只是外部知识的一种形式,“知识”还可以是数据库、图谱、关键词等形式。引入外部知识是为了限制模型的输出范围,让聊天围绕某一个特定的主题展开。
DBD也是近几年自然语言处理研究的热点之一。本文分享6个我最近收集的公开权威数据集,供大家参考。
1. Wizard of Wikipedia - ICLR 2019
2. CMUDoG - EMNLP 2018
下载地址:
https://github.com/festvox/datasets-CMU_DoG
3. Movie-chats - EMNLP 2020
下载地址:
https://github.com/chin-gyou/MovieChats
4. Persona - ACL 2018
下载地址:
https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
5. Reddit Conversation Corpus (RCC) - ACL 2019
下载地址:
https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
6. doc2dial - ACL 2021
下载地址:
https://github.com/doc2dial/sharedtask-dialdoc2021
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢