- 简介大型语言模型(LLMs)已经成为许多自然语言任务的强大且通用的解决方案。然而,许多最重要的语言生成应用都是交互式的,其中代理人必须与人交谈以达到期望的结果。例如,教师可能会尝试了解他们学生的当前理解水平,以相应地调整教学方法,旅行代理人可能会询问客户的问题以了解他们的偏好,以推荐他们可能喜欢的活动。使用监督微调或“单步”RL训练的LLMs,与标准RLHF一样,可能会在需要这种目标导向行为的任务中遇到困难,因为它们没有接受过针对多次交互后优化整体对话结果的训练。在这项工作中,我们探索了一种适用于此类目标导向对话的RL适应LLMs的新方法。我们的关键洞见是,虽然LLMs可能无法直接解决目标导向对话任务,但它们可以通过模拟次优但类似人类的行为为解决此类任务提供有用的数据。给定一个目标导向对话任务的文本描述,我们利用LLMs对假设的领域内人类交互进行多样化的合成展开采样。然后,我们的算法利用这个数据集进行离线强化学习,以训练一个交互式对话代理,该代理可以在多次交互中优化目标导向的目标。实际上,LLM生成可能交互的示例,然后RL处理这些示例以学习执行更优化的交互。从经验上讲,我们展示了我们提出的方法在包括教学和偏好引导在内的各种目标导向对话任务中实现了最先进的性能。
- 图表
- 解决问题本文旨在解决交互式语言生成任务中的目标导向对话问题,提出了一种新的基于强化学习的方法。传统的监督微调或单步强化学习方法不能有效解决需要多轮交互的对话任务,本文试图通过利用大型语言模型生成人类对话数据,再结合离线强化学习方法训练对话代理来优化多轮交互的目标导向对话。
- 关键思路本文的关键思路是,利用大型语言模型生成人类对话数据,再通过离线强化学习方法训练对话代理来优化多轮交互的目标导向对话。这种方法不仅可以解决传统监督微调或单步强化学习方法无法解决的多轮交互对话问题,而且可以通过大型语言模型生成的人类对话数据来模拟人类的语言行为,从而提高对话代理的性能。
- 其它亮点本文提出的方法在多个目标导向对话任务中均取得了最先进的性能。实验结果表明,该方法不仅可以提高对话代理的性能,而且可以通过大型语言模型生成的人类对话数据来模拟人类的语言行为,从而提高对话代理的性能。本文还提供了开源代码和使用的数据集,方便其他研究者进行复现和拓展。
- 相关研究包括:1.《A Deep Reinforcement Learning Chatbot》(Zhang et al.,2018);2.《Deal or No Deal? End-to-End Learning for Negotiation Dialogues》(Lewis et al.,2017);3.《Learning to Collaborate for Question Answering and Asking》(Das et al.,2017)等。
沙发等你来抢
去评论
评论
沙发等你来抢