- 简介使用强化学习(RL)构建通用推理模型涉及显著的跨领域异构性,包括推理时响应长度和验证延迟的巨大差异。这种可变性增加了强化学习基础设施的复杂性,拖慢了训练速度,并使得训练课程设计(例如扩展响应长度)和超参数选择变得困难。在本研究中,我们提出了一种级联式逐域强化学习方法(Cascade RL),用于开发能够在“指令执行”和“深度思考”两种模式下运行的通用推理模型Nemotron-Cascade。与传统混合来自不同领域异构提示的方法不同,Cascade RL采用依次进行的、按领域划分的强化学习流程,降低了工程复杂度,并在广泛的基准测试中实现了最先进的性能。值得注意的是,将基于人类反馈的强化学习(RLHF)用于对齐作为前置步骤时,其提升模型推理能力的效果远超单纯的偏好优化;而在后续的逐域RLVR阶段中,模型在先前领域中取得的基准性能极少出现下降,甚至可能进一步提升(参见图1的示意图)。我们的140亿参数模型在经过强化学习训练后,在LiveCodeBench v5/v6/Pro上的表现超过了其监督微调(SFT)教师模型DeepSeek-R1-0528,并在2025年国际信息学奥林匹克竞赛(IOI)中达到了银牌水平。我们公开分享了全部训练方法与数据方案。
-
- 图表
- 解决问题论文试图解决在使用强化学习(RL)构建通用推理模型时,由于跨领域异构性(如推理时响应长度和验证延迟的显著差异)带来的基础设施复杂性、训练效率低下以及课程设计困难的问题。这种异质性使得传统混合多领域提示的RL方法难以高效扩展和优化。这是一个随着大模型向通用推理演进而日益突出的新问题。
- 关键思路提出级联式分域强化学习(Cascade RL),摒弃传统的多领域混合训练范式,转而采用按领域顺序进行的分阶段RL训练策略。该方法将训练过程分解为一系列领域特定的RL阶段,每个阶段专注于提升某一类任务的推理能力,同时保持或增强在先前领域中获得的性能。此外,先通过RLHF对齐提升基础推理能力,作为后续RLVR阶段的基础,从而实现更稳定高效的训练流程。
- 其它亮点实验表明,14B规模的Nemotron-Cascade模型在LiveCodeBench v5/v6/Pro等多个基准上超越其SFT教师模型DeepSeek-R1-0528,并在IOI 2025中达到银牌水平,验证了方法的有效性。作者透明公开了训练与数据配方,增强了可复现性。值得注意的是,后续领域的RL训练极少导致之前领域性能下降,甚至可能带来提升,说明了Cascade RL的良好兼容性和累积增益特性。未来可探索更多领域序列安排、自动课程设计及跨领域迁移机制。
- 1. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” 2. “Training Language Models with Human Feedback: A Brief Overview of RLHF” 3. “Chain-of-Thought Hub: A Continuous Evaluation of LLM Reasoning” 4. “StarCoder2: Universal Completion and Generation from Code, Math, Science, and More” 5. “PaLM: Scaling Language Modeling with Pathways”
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流