Offline Reinforcement Learning for LLM Multi-Step Reasoning

2024年12月20日
  • 简介
    提升大型语言模型(LLMs)的多步推理能力,对于快速适应复杂任务至关重要。尽管直接偏好优化(DPO)在使LLMs与人类偏好对齐方面显示出潜力,但它不太适合多步推理任务,因为(1)DPO依赖于成对的偏好数据,而这些数据在多步推理任务中不易获得;(2)它将所有标记视为同等重要,这使得在通常带有稀疏奖励的多步推理任务中无法有效分配信用。 在这项工作中,我们提出了OREO(离线推理优化),一种用于增强LLM多步推理能力的离线强化学习方法。基于最大熵强化学习的先前研究见解,该方法通过优化软贝尔曼方程联合学习策略模型和价值函数。我们从理论上证明了这种方法减少了收集成对数据的需求,并能实现更好的信用分配。实证结果表明,OREO在多步推理基准测试中超越了现有的离线学习方法,包括数学推理任务(如GSM8K、MATH)和具身代理控制(如ALFWorld)。当有额外资源时,该方法可以扩展到多轮迭代框架。此外,所学到的价值函数可以在测试时免费用于指导树搜索,从而进一步提升性能。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLMs)在多步推理任务中的表现不佳问题,尤其是通过离线强化学习(RL)方法来改进。这是一个相对新颖的问题,因为虽然已有研究关注于对齐LLM与人类偏好,但如何有效地将这些模型应用于复杂的、需要多步推理的任务中仍是一个挑战。
  • 关键思路
    关键思路是提出了一种新的离线RL方法——OREO(Offline Reasoning Optimization),它基于最大熵强化学习的见解,同时学习策略模型和价值函数,通过优化软贝尔曼方程来改善多步推理能力。相比直接偏好优化(DPO),OREO减少了对成对数据的需求,并能更好地进行信用分配,从而更适用于多步推理任务。
  • 其它亮点
    该论文展示了OREO在多个多步推理基准测试上的优越性,包括数学推理任务(如GSM8K、MATH)和具身代理控制(如ALFWorld)。此外,OREO可以扩展到多迭代框架,并且学习到的价值函数可以在测试时用于指导树搜索,无需额外成本即可提升性能。论文还提供了实验设计的详细说明,使用了公开的数据集,并可能开源了代码,为后续研究提供了坚实的基础。
  • 相关研究
    最近在这个领域,相关的研究包括:1. Direct Preference Optimization (DPO),用于对齐LLM与人类偏好;2. Maximum Entropy Reinforcement Learning,提供理论基础;3. 其他离线强化学习方法,如CQL(Conservative Q-Learning),用于提高模型的泛化能力。相关论文标题如《Direct Preference Optimization: Bridging Offline Reinforcement Learning and Human Feedback》、《Conservative Q-Learning for Offline RL》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论