- 简介近期在以推理为中心的语言模型研究中,强化学习(RL)被突出作为一种通过可验证奖励来对齐模型的有前景方法。然而,强化学习是否真正扩展了模型的推理能力,还是仅仅放大了基础模型分布中已潜在存在的高奖励输出,以及持续增加强化学习的计算资源是否可靠地带来更好的推理性能,这些问题仍然存在争议。在本研究中,我们通过展示长时间强化学习(ProRL)训练能够揭示基础模型即使在大量采样下也无法触及的新颖推理策略,从而挑战了现有的假设。我们提出了ProRL,这是一种新的训练方法,它结合了KL散度控制、参考策略重置以及多样化的任务集合。我们的实证分析表明,在广泛的pass@k评估中,经过RL训练的模型始终优于基础模型,包括那些无论尝试多少次基础模型都会完全失败的场景。我们进一步发现,推理边界的改进与基础模型的任务能力和训练时长密切相关,这表明强化学习可以随着时间推移探索并填充解空间中的新区域。这些发现为强化学习在何种条件下能够有意义地扩展语言模型的推理边界提供了新的见解,并为未来关于长期强化学习推理的研究奠定了基础。我们还发布了模型权重以支持进一步研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
- 图表
- 解决问题论文试图验证强化学习(RL)是否能够真正扩展语言模型的推理能力,而非仅仅放大其已有的高奖励输出。此外,研究探讨了持续增加RL计算资源是否能可靠地提升模型的推理性能,这是一个尚未完全解决的问题。
- 关键思路论文提出了一种名为Prolonged Reinforcement Learning (ProRL) 的新训练方法,通过结合KL散度控制、参考策略重置和多样化任务套件来探索模型推理能力的边界。相比现有方法,ProRL不仅优化了模型对已有知识的利用,还揭示了基础模型无法通过简单采样获得的新推理策略。
- 其它亮点实验设计包括广泛的pass@k评估,证明RL训练模型在多种场景下显著优于基础模型,尤其是在后者完全失败的情况下。研究还发现,推理能力的提升与基础模型的任务能力和训练时长密切相关。论文开源了1.5B参数规模的模型权重(https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B),为未来研究提供了宝贵的资源。值得进一步研究的方向包括更长时间的RL训练效果以及跨领域任务的表现。
- 相关研究包括:1) 'Chain of Thought Prompting Elicits Reasoning in Large Language Models',探讨了提示工程对推理能力的影响;2) 'Reinforcement Learning from Human Feedback Aligns Language Models with Human Values',研究了基于人类反馈的RL对模型对齐的作用;3) 'Reasoning in Large Language Models: Opportunities and Limitations',分析了大规模语言模型推理能力的机遇与限制。这些工作共同构成了当前关于语言模型推理能力的研究背景。
沙发等你来抢
去评论
评论
沙发等你来抢