Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

向作者提问

NEW

简介

使用强化学习（RL）构建通用推理模型涉及显著的跨领域异构性，包括推理时响应长度和验证延迟的巨大差异。这种可变性增加了强化学习基础设施的复杂性，拖慢了训练速度，并使得训练课程设计（例如扩展响应长度）和超参数选择变得困难。在本研究中，我们提出了一种级联式逐域强化学习方法（Cascade RL），用于开发能够在“指令执行”和“深度思考”两种模式下运行的通用推理模型Nemotron-Cascade。与传统混合来自不同领域异构提示的方法不同，Cascade RL采用依次进行的、按领域划分的强化学习流程，降低了工程复杂度，并在广泛的基准测试中实现了最先进的性能。值得注意的是，将基于人类反馈的强化学习（RLHF）用于对齐作为前置步骤时，其提升模型推理能力的效果远超单纯的偏好优化；而在后续的逐域RLVR阶段中，模型在先前领域中取得的基准性能极少出现下降，甚至可能进一步提升（参见图1的示意图）。我们的140亿参数模型在经过强化学习训练后，在LiveCodeBench v5/v6/Pro上的表现超过了其监督微调（SFT）教师模型DeepSeek-R1-0528，并在2025年国际信息学奥林匹克竞赛（IOI）中达到了银牌水平。我们公开分享了全部训练方法与数据方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在使用强化学习（RL）构建通用推理模型时，由于跨领域异构性（如推理时响应长度和验证延迟的显著差异）带来的基础设施复杂性、训练效率低下以及课程设计困难的问题。这种异质性使得传统混合多领域提示的RL方法难以高效扩展和优化。这是一个随着大模型向通用推理演进而日益突出的新问题。
关键思路

提出级联式分域强化学习（Cascade RL），摒弃传统的多领域混合训练范式，转而采用按领域顺序进行的分阶段RL训练策略。该方法将训练过程分解为一系列领域特定的RL阶段，每个阶段专注于提升某一类任务的推理能力，同时保持或增强在先前领域中获得的性能。此外，先通过RLHF对齐提升基础推理能力，作为后续RLVR阶段的基础，从而实现更稳定高效的训练流程。
其它亮点

实验表明，14B规模的Nemotron-Cascade模型在LiveCodeBench v5/v6/Pro等多个基准上超越其SFT教师模型DeepSeek-R1-0528，并在IOI 2025中达到银牌水平，验证了方法的有效性。作者透明公开了训练与数据配方，增强了可复现性。值得注意的是，后续领域的RL训练极少导致之前领域性能下降，甚至可能带来提升，说明了Cascade RL的良好兼容性和累积增益特性。未来可探索更多领域序列安排、自动课程设计及跨领域迁移机制。
相关研究

1. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” 2. “Training Language Models with Human Feedback: A Brief Overview of RLHF” 3. “Chain-of-Thought Hub: A Continuous Evaluation of LLM Reasoning” 4. “StarCoder2: Universal Completion and Generation from Code, Math, Science, and More” 5. “PaLM: Scaling Language Modeling with Pathways”

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问