- 简介强化学习(RL)已成为提升大语言模型(LLMs)推理能力的关键方法。然而,现有的强化学习方法,例如近端策略优化(PPO)和分组正则化策略优化(GRPO),由于依赖于稀疏的结果导向奖励以及激励探索的机制不足,面临严重的局限性。这些局限性导致多步推理过程的引导效率低下。具体而言,稀疏奖励信号无法为复杂问题提供有效或充分的反馈。此外,这种奖励结构会引发系统性偏差,倾向于利用熟悉的路径而非探索新的解决方案。这些缺陷严重阻碍了复杂推理任务中的性能表现,而这类任务本质上需要在中间步骤中进行迭代改进。为了解决这些问题,我们提出了一种名为内在动机引导的探索方法(i-MENTOR),这是一种新颖的方法,旨在通过密集奖励和增强探索来改进基于RL的训练范式。i-MENTOR 引入了三项关键创新:轨迹感知探索奖励,能够在保持计算效率的同时减少标记级策略中的偏差;动态奖励缩放,用于在大规模动作空间中稳定探索与利用的平衡;以及优势保留奖励实现方式,在引入探索性引导的同时保持优势分布的完整性。在三个公开数据集上的实验表明,i-MENTOR 在困难数据集 Countdown-4 上实现了 22.39% 的性能提升,证明了其有效性。
- 图表
- 解决问题论文试图解决强化学习(RL)方法在提升大型语言模型(LLM)推理能力时面临的稀疏奖励信号和探索不足的问题。这类问题导致模型在复杂多步推理任务中表现不佳,特别是在需要逐步优化的挑战性场景下。这并非一个全新的问题,但针对LLM推理过程中的具体需求进行优化是一个新的研究方向。
- 关键思路论文提出了一种名为i-MENTOR的方法,通过引入轨迹感知探索奖励、动态奖励缩放和优势保持奖励实现机制,来提供密集奖励并增强探索能力。与现有方法相比,i-MENTOR特别关注缓解稀疏奖励带来的偏差,并通过计算高效的方式促进模型在大动作空间中的探索与利用平衡。
- 其它亮点实验设计覆盖了三个公开数据集,并在Countdown-4这一困难数据集上取得了22.39%的性能提升。此外,该方法在处理复杂推理任务时表现出显著优势,表明其具有广泛适用性。目前未提及代码是否开源,但未来可以进一步研究如何将i-MENTOR扩展到更大规模的语言模型以及更复杂的任务领域。
- 相关研究包括Proximal Policy Optimization (PPO) 和 Group-Regularized Policy Optimization (GRPO),这些方法虽然有效但在稀疏奖励环境下表现受限。其他类似工作如《Curiosity-driven Exploration by Self-supervised Prediction》和《Reward Augmented Maximum Likelihood for Sequence Generation》也探讨了通过内在动机或奖励增强来改善探索效率。同时,《Hierarchical Reinforcement Learning for Long-horizon Tasks》为多步推理任务提供了额外参考。
沙发等你来抢
去评论
评论
沙发等你来抢