A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

2025年04月15日
  • 简介
    强化学习(RL)已成为在复杂推理任务上微调大语言模型(LLMs)的主流方法。在近期的方法中,GRPO因其在训练如DeepSeek-R1等模型时取得的经验成功而脱颖而出,但其有效性来源仍不甚明了。在本研究中,我们从类似强化算法的角度重新审视GRPO,并分析其核心组成部分。令人惊讶的是,我们发现一个简单的拒绝采样基线方法RAFT——仅基于正奖励样本进行训练——能够取得与GRPO和PPO相当的性能。我们的消融研究表明,GRPO的主要优势来源于剔除完全错误响应的提示,而非其奖励归一化机制。受此启发,我们提出了Reinforce-Rej,这是对策略梯度的一种最小扩展,它同时过滤掉完全错误和完全正确的样本。Reinforce-Rej提升了KL效率和稳定性,成为更复杂RL算法的一个轻量且有效的替代方案。我们推荐RAFT作为一种稳健且可解释的基线方法,并建议未来的研究应专注于更系统地设计如何纳入负样本,而不是无差别地依赖它们。我们的研究结果为基于奖励的大语言模型后训练的未来工作提供了指导。
  • 图表
  • 解决问题
    论文试图解决如何更高效地使用强化学习方法(如GRPO)对大型语言模型(LLMs)进行复杂推理任务的微调问题。这是一个重要的研究方向,但并非全新的问题,而是对现有RL方法在LLM优化中的进一步探索。
  • 关键思路
    论文的关键思路是从Reinforce-like算法的角度重新审视GRPO,并发现其主要优势来源于过滤掉完全错误的回答样本,而非奖励归一化。基于此洞察,作者提出了Reinforce-Rej方法,这是一种通过筛选完全正确和完全错误样本的简化策略,同时引入RAFT作为仅训练正向奖励样本的基线。相比复杂RL算法,Reinforce-Rej更加轻量且有效。
  • 其它亮点
    1. 提出了RAFT和Reinforce-Rej两种新方法,后者显著提高了KL效率和训练稳定性;2. 通过详尽的消融实验揭示了GRPO性能提升的核心来源;3. 强调未来工作应聚焦于更有原则性地利用负样本,而非简单依赖它们;4. 实验设计覆盖多种复杂推理任务,但未提及具体数据集或代码开源情况;5. 值得深入研究的方向包括改进负样本的使用方式以及开发更高效的RL算法以适配LLMs。
  • 相关研究
    近期相关研究包括:1. 'Deep Reinforcement Learning for Large Language Models with Human Feedback' - 探索人类反馈在LLM微调中的作用;2. 'Proximal Policy Optimization Algorithms' (PPO) - 提供了一种基准RL方法;3. 'Generalized Reward-based Policy Optimization (GRPO)' - GRPO的原始提出论文;4. 'Reward Modeling for Language Model Alignment' - 研究奖励建模对LLM对齐的影响。这些研究共同推动了RL在LLM优化中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论