标题：清华大学｜EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training（EVA：具有大规模生成式预训练的开放域中文对话系统）

推荐理由：使用中文预训练对话模型的最大的中文对话系统

简介：尽管预训练的语言模型显着增强了对话系统，与英文相比那些开放域中文对话系统仍受对话数据和模型大小限制。在本文中，我们提出了EVA，一个包含28亿参数最大的中文对话系中文预训练对话模型。为了建立这个模型，我们收集了来自各种公共社交媒体的最大中文对话数据集WDCDialogue。该数据集包含14亿上下文响应对，并用作EVA预训练语料库。广泛的自动化实验和人类评估表明EVA在人机对话的多轮交互中优于其他中文预训练对话模型。