AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

2025年06月16日
  • 简介
    在本研究中,我们探讨了监督微调(SFT)与强化学习(RL)在开发强大推理模型时的协同作用。我们首先通过两种扩展策略来整理 SFT 训练数据:增加收集的提示数量以及每个提示生成的响应数量。这两种方法都显著提升了推理性能,其中增加提示数量带来的收益更为显著。接下来,我们针对 SFT 和 RL 的协同作用探索了以下问题:(i) 更强的 SFT 模型是否能在大规模 RL 训练后始终带来更好的最终性能?(ii) 如何在 RL 训练过程中选择合适的采样温度,以有效平衡给定 SFT 初始化下的探索与利用?我们的研究结果表明,在进行有效的 RL 训练时,(i) 是成立的,特别是当采样温度被精心调整以保持温度校正后的熵值约为 0.3 时,这一设置能够在探索与利用之间取得良好的平衡。值得注意的是,在整个 RL 过程中,初始 SFT 模型之间的性能差距显著缩小。借助强大的 SFT 基础以及对 SFT 和 RL 协同作用的深入理解,我们的 AceReason-Nemotron-1.1 7B 模型显著超越了 AceReason-Nemotron-1.0,并在复杂的数学和代码基准测试中达到了基于 Qwen2.5-7B 推理模型的新最先进水平,从而证明了我们后训练方法的有效性。我们已将模型和数据发布在以下链接:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
  • 图表
  • 解决问题
    本论文试图解决如何通过监督微调(SFT)和强化学习(RL)的结合来提升大语言模型在复杂推理任务(如数学和编程问题)上的表现。这是一个持续优化的问题,但具体探讨SFT与RL之间的协同效应是一个相对新颖的角度。
  • 关键思路
    论文的关键思路是通过两种数据扩展策略(增加提示数量和每个提示生成的响应数量)优化SFT训练数据,并研究SFT模型强度与最终RL性能的关系。此外,作者提出通过调整采样温度(使温度调整后的熵保持在约0.3)来平衡RL训练中的探索与利用。这种方法强调了SFT作为RL的基础的重要性,同时揭示了RL过程中初始性能差距逐渐缩小的现象。
  • 其它亮点
    实验设计包括对比不同SFT初始化对RL效果的影响,并验证了适当的采样温度对性能的关键作用。论文使用了数学和代码基准测试集来评估模型性能,并开源了模型和数据(https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B)。此外,AceReason-Nemotron-1.1 7B在Qwen2.5-7B基础上显著超越了前代模型,达到新的SOTA水平,值得进一步研究如何将此方法推广到其他领域或更大规模模型上。
  • 相关研究
    相关研究包括:1)《Fine-Tuning Language Models from Human Preferences》探讨了基于人类偏好的微调方法;2)《Reinforcement Learning from Human Feedback》研究了通过人类反馈改进RL的效果;3)《Chain of Thought Prompting Elicits Reasoning in Large Language Models》分析了链式思维提示对推理能力的影响;4)《Scaling Laws for Autoregressive Generative Modeling》讨论了数据规模对自回归生成模型的影响。这些工作共同构成了当前关于SFT和RL结合的研究背景。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论