【论文标题】Zero-Resource Knowledge-Grounded Dialogue Generation 【作者团队】Linxiao Li, Can Xu, Wei Wu, Yufan Zhao, Xueliang Zhao, Chongyang Tao 【发表时间】2020/8/29 【论文链接】https://arxiv.org/abs/2008.12918 【代码链接】https://github.com/nlpxucan/ZRKGC

【推荐理由】 本文来自北大王选计算机研究所和微软的联合团队,该论文首次在零资源的设置下探索基于知识的对话生成问题,并提出了一种新的知识表示的方法,通过将知识表示为潜在变量,建立上下文和回复之间的联系。 尽管当前研究已经展现了基于深度学习的对话模型可以通过引入外部知识来产生包含丰富信息并引人入胜的回复,但训练这种模型通常需要以知识为基础的对话,而这些对话很难获得。为了克服缺乏数据的挑战并降低构建基于知识的对话系统的成本,作者在零资源设置下探索这一问题,该设定是假设模型无需上下文-知识-回复的三元组训练。为此,作者提出了一种知识表示的方法,通过将该知识表示为潜在变量,将上下文和回复联系起来,并设计一种变分方法,该方法可以有效并彼此独立地从对话语料库和知识语料库中估算生成模型。在基于知识的对话生成的三个基准数据集上的评估结果表明,本文的模型可以通过依赖于基于知识的对话进行训练,与最新方法来实现可比的性能,并且对不同主题和不同数据集具有良好的泛化能力。 具体来说,由于在训练过程中缺少基于知识的对话,因此作者引入了两个潜在变量,分别代表了基础知识和基础率(即用于回复的知识量)。然后,生成过程在概率框架内形式化,并通过变分推理进行优化。为了利用自然语言任务的预训练方面的最新突破,作者在预训练的语言模型的基础上构建了概率模型。另外,作者提出使用检索模型实例化后验,代替使用生成模型,从而将知识的搜索空间限制在一些相关的候选对象内。因此,作者可以避免繁琐的采样步骤,并使学习过程更加稳定。除了通用EM的目标外,作者还设计了一个知识选择损失和一个互信息损失,前者学习如何定制长知识输入以满足预训练语言模型的能力约束,而后者则可以有效地估计变异推断损失。

图 1:算法优化过程
本文的主要贡献如下: 1. 本文首次探究了零资源的设置下探索基于知识的对话生成问题。 2. 本文提出了一种双潜在变量模型,该模型不仅描述了如何使用知识连接上下文,而且描述了知识的表达方式,并提出了新的变分学习方法。 3. 最后在基于知识的对话生成的三个基准数据集上验证了方法的有效性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除