标题:清华大学|EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training(EVA:具有大规模生成式预训练的开放域中文对话系统)

推荐理由:使用中文预训练对话模型的最大的中文对话系统

简介:尽管预训练的语言模型显着增强了对话系统,与英文相比那些开放域中文对话系统仍受对话数据和模型大小限制。在本文中,我们提出了EVA,一个包含28亿参数最大的中文对话系中文预训练对话模型。为了建立这个模型,我们收集了来自各种公共社交媒体的最大中文对话数据集WDCDialogue。该数据集包含14亿上下文响应对,并用作EVA预训练语料库。广泛的自动化实验和人类评估表明EVA在人机对话的多轮交互中优于其他中文预训练对话模型。

代码下载:https://github.com/thu-coai/EVA

论文地址:https://arxiv.org/pdf/2108.01547.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除