- 简介提高大型语言模型(LLMs)的多步推理能力,对于快速适应复杂任务至关重要。虽然直接偏好优化(DPO)在使LLMs与人类偏好对齐方面显示出潜力,但对于多步推理任务来说,它不太适用,原因有二:(1)DPO依赖于成对的偏好数据,而这类数据在多步推理任务中并不容易获得;(2)它对待所有标记一视同仁,这使得它在多步推理任务中的信用分配效果不佳,而这些任务通常伴随着稀疏奖励。 在这项工作中,我们提出了OREO(离线推理优化),一种用于增强LLM多步推理能力的离线强化学习方法。基于最大熵强化学习的先前研究见解,该方法通过优化软贝尔曼方程来联合学习策略模型和价值函数。我们在理论上表明,它减少了收集成对数据的需求,并能够实现更好的信用分配。实证上,OREO在多步推理基准测试中超越了现有的离线学习方法,包括数学推理任务(GSM8K、MATH)和具身智能体控制(ALFWorld)。当有额外资源可用时,该方法可以扩展到多迭代框架。此外,所学到的价值函数可以免费用于引导树搜索,从而在测试时进一步提升性能。
- 图表
- 解决问题该论文试图解决大型语言模型(LLMs)在多步推理任务中的表现不佳问题,特别是当这些任务涉及稀疏奖励和复杂的信用分配时。这确实是一个新问题,因为尽管LLMs在许多自然语言处理任务中表现出色,但在需要长期规划和复杂逻辑推理的任务上仍存在不足。
- 关键思路关键思路是提出一种名为OREO(Offline Reasoning Optimization)的离线强化学习方法,以增强LLM的多步推理能力。与现有的DPO方法不同,OREO基于最大熵强化学习的原则,通过优化软贝尔曼方程来联合学习策略模型和价值函数,从而减少对成对偏好数据的需求,并改善信用分配。这种新颖的方法特别适合于具有稀疏奖励的多步推理任务。
- 其它亮点该研究的亮点包括:1) OREO在数学推理任务(如GSM8K、MATH)和具身代理控制(如ALFWorld)等多步推理基准测试中超越了现有的离线学习方法;2) 提出了一个可以在有额外资源时使用的多迭代框架;3) 学习到的价值函数可以在测试时免费用于指导树搜索,进一步提高性能;4) 实验设计严谨,使用了多个公开数据集,且代码已开源,为未来的研究提供了坚实的基础。
- 最近在这个领域中,相关的研究还包括:1) Direct Preference Optimization (DPO),它在对齐LLM与人类偏好方面取得了进展,但不适用于多步推理任务;2) 最大熵强化学习的应用,如Soft Actor-Critic (SAC),为OREO提供了理论基础;3) 其他关于改进LLM推理能力的工作,例如Chain-of-Thought Prompting和Self-Consistency Training。
沙发等你来抢
去评论
评论
沙发等你来抢