来自清华大学朱小燕、黄民烈团队的王义达作为一作发表的《A Large-Scale Chinese Short-Text Conversation Dataset》获得了NLPCC 2020 最佳学生论文。
这篇论文的主要内容:基于Transformer的大规模预训练语言模型极大地促进了开放领域对话的研究进展。然而目前这一技术在中文对话领域并未被广泛应用,主要原因在于目前缺乏大规模高质量的中文对话开源数据。
为了推动中文对话领域的研究,弥补中文对话语料不足这一问题,论文作者们发布了一个包含1200万对话的大规模中文对话数据集LCCC,并开源了在LCCC上预训练的大规模中文对话生成模型CDial-GPT。
开源地址:https://github.com/thu-coai/CDial-GPT 论文下载:https://arxiv.org/abs/2008.03946
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢