【作者团队】Ziming Li and Julia Kiseleva and Maarten de Rijke
【论文链接】https://arxiv.org/pdf/2009.09781.pdf
【推荐理由】面向任务的对话系统的对话策略学习最近取得了很大进展,主要是通过采用强化学习方法。然而,这些方法已经变得非常复杂。是时候重新评估它了。在仅基于强化学习开发对话代理方面取得进展吗?本文展示了如何使用 (1)~传统监督学习和 (2)~一种无模拟器的对抗性学习方法来实现与最先进的基于 RL 的方法相当的性能。首先,引入了一个简单的对话动作解码器来预测适当的动作。然后,通过添加密集层来扩展对话策略学习的传统多标签分类解决方案,以提高对话代理的性能。最后,使用 Gumbel-Softmax 估计器在不使用强化学习的情况下交替训练对话代理和对话奖励模型。基于广泛的实验,得出结论,所提出的方法可以以更少的努力实现更稳定和更高的性能,例如设计用户模拟器所需的领域知识和强化学习中棘手的参数调整。我们的主要目标不是用监督学习打败强化学习,而是展示重新思考强化学习和监督学习在优化面向任务的对话系统中的作用的价值。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢