【标题】Improving a sequence-to-sequence nlp model using a reinforcement learning policy algorithm

【作者团队】Jabri Ismail, Aboulbichr Ahmed, El ouaazizi Aziza

【发表日期】2022.12.28

【论文链接】https://arxiv.org/abs/2212.14117

【推荐理由】如今,当前的对话生成神经网络模型(聊天机器人)展示出为聊天智能体生成答案的巨大希望。但是它们是短视的,因为其一次只预测一个话语,而忽略了它们对未来结果的影响。为对话的未来方向建模对于生成连贯、有趣的对话至关重要,这种需求导致了依赖强化学习的传统 NLP 对话模型。本文将解释如何通过使用深度强化学习来预测聊天机器人对话中未来的奖励,从而将这些目标结合起来。该模型模拟两个虚拟智能体之间的对话,使用策略梯度方法来奖励表现出三个有用对话特征的序列:非正式的流动、连贯性、和响应的简单性(与前瞻性功能相关)。本研究根据其多样性、长度和复杂性来评估模型。在对话模拟中,评估表明,所提出的模型会产生更多的互动反应,并鼓励更持久的成功对话。这项工作是为了纪念成功发展一个基于长期对话的神经会话模型的第一步。

内容中包含的图片若涉及版权问题,请及时与我们联系删除