- 论文名称:Counterfactual Off-Policy Training for Neural Dialogue Generation
- 论文作者:朱庆福,张伟男,刘挺,王威廉
- 原创作者:朱庆福
- 论文链接:https://arxiv.org/abs/2004.14507
开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。作者在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复,反事实推理模型会自动推理:如果执行一个现实中未发生的替代策略会得到什么结果?这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下,使用反事实回复来训练模型将有助于探索潜在回复空间中的高奖励区域。在DailyDialog数据集上的实验结果表明,本文的方法显著优于HRED模型和传统的对抗训练方法。
本文提出的模型无关的基于反事实推理的生成式对话模型,可以利用观测到的真实回复,自动推理执行替代策略下的潜在回复。推理得到的反事实回复优于传统对抗训练随机生成的回复,有助于探索回复空间中的高奖励区域。使用反事实回复进行训练,提升了生成回复的整体质量。
感兴趣的可以戳原文链接。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢