一作解读NLPCC最佳学生论文：1200万中文对话数据和预训练模型CDial-GPT

来自清华大学朱小燕、黄民烈团队的王义达作为一作发表的《A Large-Scale Chinese Short-Text Conversation Dataset》获得了NLPCC 2020 最佳学生论文。

这篇论文的主要内容：基于Transformer的大规模预训练语言模型极大地促进了开放领域对话的研究进展。然而目前这一技术在中文对话领域并未被广泛应用，主要原因在于目前缺乏大规模高质量的中文对话开源数据。

为了推动中文对话领域的研究，弥补中文对话语料不足这一问题，论文作者们发布了一个包含1200万对话的大规模中文对话数据集LCCC，并开源了在LCCC上预训练的大规模中文对话生成模型CDial-GPT。

开源地址：https://github.com/thu-coai/CDial-GPT 论文下载：https://arxiv.org/abs/2008.03946

内容中包含的图片若涉及版权问题，请及时与我们联系删除