Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

2025年06月05日
  • 简介
    强化学习(RL)已成为赋予语言模型高级推理能力的主流范式。尽管基于 RL 的训练方法(如 GRPO)展示了显著的经验收益,但对其优势的细致理解仍然不足。为弥补这一空白,我们提出了一种精细分析框架,以剖析强化学习对推理的影响。我们的框架特别研究了以下被假设能从 RL 训练中受益的关键要素:(1)计划遵循与执行,(2)问题分解,以及(3)改进的推理和知识利用。 通过这一框架,我们获得了超越单纯准确率的深刻洞见。例如,向模型提供明确的分步计划竟然在最具挑战性的基准测试中降低了性能,而经过 RL 调优的模型表现出更强的鲁棒性,其性能下降幅度明显小于基础模型。这表明 RL 可能并非主要增强模型对外部计划的执行能力,而是使模型能够制定并遵循更符合其推理过程的内部策略。相反,我们观察到 RL 提升了模型将给定知识融入推理过程的能力,从而在各种任务中实现了性能提升。此外,我们还研究了任务难度,并通过开发新方法来利用难题展示了改进的训练效果。我们的研究结果为更系统地训练和评估推理模型奠定了基础。
  • 图表
  • 解决问题
    论文试图解决强化学习(RL)如何提升语言模型推理能力这一问题,特别是通过细粒度分析框架探讨RL对计划执行、问题分解和知识利用的具体影响。这是一个较为新颖的问题,因为它超越了单纯评估模型准确率的传统方法,深入研究了RL在不同推理组件上的作用。
  • 关键思路
    论文提出了一种细粒度分析框架来拆解RL训练对推理能力的影响。关键思路在于将推理过程分为三个核心要素:计划遵循与执行、问题分解以及知识整合,并通过实验证明RL并非简单增强外部计划的执行,而是帮助模型形成更优的内部策略。此外,RL显著提高了模型的知识利用能力,从而提升了跨任务表现。
  • 其它亮点
    1. 实验设计包括提供显式分步计划以测试模型性能变化,结果表明显式计划可能降低复杂任务表现,而RL模型表现出更强鲁棒性。 2. 研究发现RL能有效促进模型将给定知识融入推理过程,这为后续研究提供了新方向。 3. 论文探索了如何通过开发硬问题来改进训练方法,展示了难度控制的重要性。 4. 尽管未提及具体数据集或开源代码,但其提出的分析框架可以广泛应用于未来研究。
  • 相关研究
    近期相关研究包括: 1. "Generalized Reward-Predictive Objectives for Reinforcement Learning",探讨了通用奖励预测目标对RL模型的影响。 2. "Chain-of-Thought Reasoning in Large Language Models",专注于链式思维推理能力的提升。 3. "Improving Knowledge Integration via Fine-Tuning Strategies",研究微调策略对知识整合的作用。 4. "Plan-Following Abilities in Pretrained Models",评估预训练模型在遵循计划方面的表现。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论