- 简介我们介绍了Nemotron 3 Super模型的预训练、后训练及量化过程。该模型是一个参数量达1200亿(其中活跃参数为120亿)的混合型Mamba-注意力机制专家混合(Mixture-of-Experts, MoE)模型。Nemotron 3 Super是Nemotron 3系列中首个具备以下三项关键特性的模型:(1)采用NVFP4精度进行预训练;(2)采用LatentMoE——一种新型专家混合架构,兼顾每浮点运算(FLOP)精度与每参数精度的双重优化目标;(3)集成MTP(Multi-Token Prediction)层,通过原生推测解码(native speculative decoding)技术显著加速推理过程。我们使用25万亿个词元对Nemotron 3 Super完成了预训练,并在此基础上,进一步开展监督微调(SFT)和强化学习(RL)等后训练流程。最终发布的模型支持最长可达100万词元的上下文长度,在主流基准测试中展现出与同类模型相当的准确率,同时在推理吞吐量上相较GPT-OSS-120B和Qwen3.5-122B分别提升最高达2.2倍和7.5倍。Nemotron 3 Super所使用的全部训练数据集,以及基础模型、后训练完成模型和量化后模型的检查点(checkpoints),均已开源至Hugging Face平台。
-
- 图表
- 解决问题如何在保持大语言模型(120B参数)高性能的同时,显著提升训练与推理的计算效率、内存效率和吞吐量;具体挑战包括:高参数量带来的FLOPs与显存开销、长上下文(1M tokens)下的延迟瓶颈、MoE稀疏性与精度-效率权衡的固有矛盾,以及量化(尤其是极低位宽)对模型能力的损害。
- 关键思路提出三重协同创新:1) 首次在NVFP4(4-bit非对称浮点)原生精度下完成全阶段预训练(而非传统FP16/BF16→后量化),大幅降低显存与带宽压力;2) 引入LatentMoE——一种隐式专家选择机制,在前馈层中动态学习专家激活模式,兼顾参数效率(仅12B活跃参数)与FLOP效率(避免冗余路由计算);3) 集成MTP(Multi-Token Prediction)层,实现无需额外模型的原生 speculative decoding,加速自回归生成。
- 其它亮点预训练规模达25T tokens;支持1M上下文长度;在主流基准(MMLU、GPQA、HumanEval等)上与GPT-OSS-120B、Qwen3.5-122B精度相当;推理吞吐达其2.2x和7.5x;全部数据集、base/post-trained/quantized检查点(含NVFP4权重)已在HuggingFace开源;实验涵盖消融验证LatentMoE路由开销、MTP预测窗口长度影响及NVFP4训练稳定性;值得深入的方向包括:NVFP4训练的理论收敛性分析、LatentMoE在多模态架构中的迁移、MTP与硬件解码器协同优化。
- Mamba-2: Structured State Spaces for Efficient Language Modeling (ICML 2024); Mixtral of Experts: A Sparse Mixture-of-Experts Architecture (2023); Qwen3.5: Scaling Vision-Language Reasoning with Long Context (2024); GPT-OSS: Open-Sourcing a 120B Parameter Foundation Model (2024); SpecInfer: Accelerating Generative LLMs via Speculative Inference (OSDI 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流