NEW

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA ,

: ,

Aakshita Chandiramani ,

Aaron Blakeman ,

Abdullahi Olaoye ,

Abhibha Gupta ,

Abhilash Somasamudramath ,

Abhinav Khattar ,

Adeola Adesoba ,

Adi Renduchintala ,

Adil Asif ,

Aditya Agrawal ,

Aditya Vavre ,

Ahmad Kiswani ,

Aishwarya Padmakumar ,

Ajay Hotchandani ,

Akanksha Shukla ,

Akhiad Bercovich ,

Aleksander Ficek ,

Aleksandr Shaposhnikov ,

Alex Gronskiy ,

Alex Kondratenko ,

Alex Neefus ,

Alex Steiner ,

Alex Yang ,

Alexander Bukharin ,

Alexander Young ,

Ali Hatamizadeh ,

Ali Taghibakhshi ,

Alina Galiautdinova ,

Alisa Liu ,

Alok Kumar ,

Ameya Sunil Mahabaleshwarkar ,

Amir Klein ,

Amit Zuker ,

Amnon Geifman ,

Anahita Bhiwandiwalla ,

Ananth Subramaniam ,

Andrew Tao ,

Anjaney Shrivastava ,

Anjulie Agrusa ,

Ankur Srivastava ,

Ankur Verma ,

Ann Guan ,

Anna Shors ,

Annamalai Chockalingam ,

Anubhav Mandarwal ,

Aparnaa Ramani ,

Arham Mehta ,

Arti Jain ,

Arun Venkatesan ,

Asha Anoosheh ,

Ashwath Aithal ,

Ashwin Poojary ,

Asif Ahamed ,

Asit Mishra ,

Asli Sabanci Demiroz ,

Asma Kuriparambil Thekkumpate ,

Atefeh Sohrabizadeh ,

Avinash Kaur ,

Ayush Dattagupta ,

Barath Subramaniam Anandan ,

Bardiya Sadeghi ,

Barnaby Simkin ,

Ben Lanir ,

Benedikt Schifferer ,

Benjamin Chislett ,

Besmira Nushi ,

Bilal Kartal ,

Bill Thiede ,

Bita Darvish Rouhani ,

Bobby Chen ,

Boris Ginsburg ,

Brandon Norick ,

Branislav Kisacanin ,

Brian Yu ,

Bryan Catanzaro ,

Buvaneswari Mani ,

Carlo del Mundo ,

Chankyu Lee ,

Chanran Kim ,

Chantal Hwang ,

Chao Ni ,

Charles Wang ,

Charlie Truong ,

Cheng-Ping Hsieh ,

Chenhan Yu ,

Chenjie Luo ,

Cherie Wang ,

Chetan Mungekar ,

Chintan Patel ,

Chris Alexiuk ,

Chris Holguin ,

Chris Wing ,

Christian Munley ,

Christopher Parisien ,

Chuck Desai ,

Chunyang Sheng ,

Collin Neale ,

Cyril Meurillon ,

Dakshi Kumar ,

Dan Gil ,

Dan Su ,

Dane Corneil ,

Daniel Afrimi ,

Daniel Burkhardt Eliuth Triana ,

Daniel Egert ,

Daniel Fatade ,

Daniel Lo ,

Daniel Rohrer ,

Daniel Serebrenik ,

Daniil Sorokin ,

Daria Gitman ,

Daria Levy ,

Darko Stosic ,

David Edelsohn ,

David Messina ,

David Mosallanezhad ,

David Tamok ,

Deena Donia ,

Deepak Narayanan ,

Devin O'Kelly ,

Dheeraj Peri ,

Dhruv Nathawani ,

Di Wu ,

Dima Rekesh ,

Dina Yared ,

Divyanshu Kakwani ,

Dmitry Konyagin Brandon Tuttle ,

Dong Ahn ,

Dongfu Jiang ,

Dorrin Poorkay ,

Douglas O'Flaherty ,

Duncan Riach ,

Dusan Stosic ,

Dustin Van Stee ,

Edgar Minasyan ,

Edward Lin ,

Eileen Peters Long ,

Elad Segal ,

Elena Lantz ,

Elena Lewis ,

Ellie Evans ,

Elliott Ning ,

Eric Chung ,

Eric Harper ,

Eric Pham-Hung ,

Eric W. Tramel ,

Erick Galinkin ,

Erik Pounds ,

Esti Etrog ,

Evan Briones ,

Evan Wu ,

Evelina Bakhturina ,

Evgeny Tsykunov ,

Ewa Dobrowolska ,

Farshad Saberi Movahed ,

Farzan Memarian ,

Fay Wang ,

Fei Jia ,

Felipe Soares ,

Felipe Vieira Frujeri ,

Feng Chen ,

Fengguang Lin ,

Ferenc Galko ,

Fortuna Zhang ,

Frankie Siino ,

Frida Hou ,

Gantavya Bhatt ,

Gargi Prasad ,

Geethapriya Venkataramani ,

Geetika Gupta ,

George Armstrong ,

Gerald Shen ,

Giulio Borghesi ,

Gordana Neskovic ,

Gorkem Batmaz ,

Grace Lam ,

Grace Wu ,

Greg Pauloski ,

Greyson Davis ,

Grigor Nalbandyan ,

Guoming Zhang ,

Guy Farber ,

Guyue Huang ,

Haifeng Qian ,

Haran Kumar Shiv Kumar ,

Harry Kim ,

Harsh Sharma ,

Hayate Iso ,

Hayley Ross ,

Herbert Hum ,

Herman Sahota ,

Hexin Wang ,

Himanshu Soni ,

Hiren Upadhyay ,

Huy Nguyen ,

Iain Cunningham ,

Ido Galil ,

Ido Shahaf ,

Igino Padovani ,

Igor Gitman ,

Igor Shovkun ,

Ikroop Dhillon ,

Ilya Loshchilov ,

Ingrid Kelly ,

Itamar Schen ,

Itay Levy ,

Ivan Moshkov ,

Izik Golan ,

Izzy Putterman ,

Jain Tu ,

Jan Baczek ,

Jan Kautz ,

Jane Polak Scowcroft ,

Janica Rosenberg ,

Jared Casper ,

Jarrod Pflum ,

Jason Grant ,

Jason Sewall ,

Jatin Mitra ,

Jeffrey Glick ,

Jenny Chen ,

Jesse Oliver ,

Jiacheng Xu ,

Jiafan Zhu ,

Jialin Song ,

Jian Zhang ,

Jiaqi Zeng ,

Jie Lou ,

Jill Milton ,

Jim Chow ,

Jimmy Zhang ,

Jinhang Choi ,

Jining Huang ,

Jocelyn Huang ,

Joel Caruso ,

Joey Conway ,

Joey Guman ,

Johan Jatko ,

John Kamalu ,

Johnny Greco ,

Jonathan Cohen ,

Jonathan Raiman ,

Joseph Jennings ,

Joyjit Daw ,

Juan Yu ,

Julio Tapia ,

Junkeun Yi ,

Jupinder Parmar ,

Jyothi Achar ,

Kari Briski ,

Kartik Mattoo ,

Katherine Cheung ,

Katherine Luna ,

Keith Wyss ,

Kevin Shih ,

Kezhi Kong ,

Khanh Nguyen ,

Khushi Bhardwaj ,

Kirill Buryak ,

Kirthi Shankar Sivamani ,

Konstantinos Krommydas ,

Kris Murphy ,

Krishna C. Puvvada ,

Krzysztof Pawelec ,

Kumar Anik ,

Laikh Tewari ,

Laya Sleiman ,

Leo Du ,

Leon Derczynski ,

Li Ding ,

Lilach Ilan ,

Lingjie Wu ,

Lizzie Wei ,

Luis Vega ,

Lun Su ,

Maarten Van Segbroeck ,

Maer Rodrigues de Melo ,

Magaret Zhang ,

Mahan Fathi ,

Makesh Narsimhan Sreedhar ,

Makesh Sreedhar ,

Makesh Tarun Chandran ,

Manuel Reyes Gomez ,

Maor Ashkenazi ,

Marc Cuevas ,

Marc Romeijn ,

Margaret Zhang ,

Mark Cai ,

Mark Gabel ,

Markus Kliegl ,

Martyna Patelka ,

Maryam Moosaei ,

Matthew Varacalli ,

Matvei Novikov ,

Mauricio Ferrato ,

Mehrzad Samadi ,

Melissa Corpuz ,

Meng Xin ,

Mengdi Wang ,

Mengru Wang ,

Meredith Price ,

Micah Schaffer ,

Michael Andersch ,

Michael Boone ,

Michael Evans ,

Michael Z Wang ,

Miguel Martinez ,

Mikail Khona ,

Mike Chrzanowski ,

Mike Hollinger ,

Mingyuan Ma ,

Minseok Lee ,

Mohammad Dabbah ,

Mohammad Shoeybi ,

Mostofa Patwary ,

Nabin Mulepati ,

Nader Khalil ,

Najeeb Nabwani ,

Nancy Agarwal ,

Nanthini Balasubramaniam ,

Narimane Hennouni ,

Narsi Kodukula ,

Natalie Hereth ,

Nathaniel Pinckney ,

Nave Assaf ,

Negar Habibi ,

Nestor Qin ,

Neta Zmora ,

Netanel Haber ,

Nick Reamaroon ,

Nickson Quak ,

Nidhi Bhatia ,

Nikhil Jukar ,

Nikki Pope ,

Nikolai Ludwig ,

Nima Tajbakhsh ,

Nir Ailon ,

Nirmal Juluru ,

Nirmalya De ,

Nowel Pitt ,

Oleg Rybakov ,

Oleksii Hrinchuk ,

Oleksii Kuchaiev ,

Olivier Delalleau ,

Oluwatobi Olabiyi ,

Omer Ullman Argov ,

Omri Almog ,

Omri Puny ,

Oren Tropp ,

Otavio Padovani ,

Ouye Xie ,

Parth Chadha ,

Pasha Shamis ,

Paul Gibbons ,

Pavlo Molchanov ,

Peter Belcak ,

Peter Jin ,

Pinky Xu ,

Piotr Januszewski ,

Pooya Jannaty ,

Prachi Shevate ,

Pradeep Thalasta ,

Pranav Prashant Thombre ,

Prasoon Varshney ,

Prerana Gambhir ,

Pritam Gundecha ,

Przemek Tredak ,

Qing Miao ,

Qiyu Wan ,

Quan Tran Minh ,

Rabeeh Karimi Mahabadi ,

Rachel Oberman ,

Rachit Garg ,

Rahul Kandu ,

Raina Zhong ,

Ran El-Yaniv ,

Ran Zilberstein ,

Rasoul Shafipour ,

Renee Yao ,

Renjie Pi ,

Richard Mazzarese ,

Richard Wang ,

Rick Izzo ,

Ridhima Singla ,

Rima Shahbazyan ,

Rishabh Garg ,

Ritika Borkar ,

Ritu Gala ,

Riyad Islam ,

Robert Clark ,

Robert Hesse ,

Roger Waleffe ,

Rohit Varma Kalidindi ,

Rohit Watve ,

Roi Koren ,

Ron Fan ,

Ruchika Kharwar ,

Ruisi Cai ,

Ruoxi Zhang ,

Russell J. Hewett ,

Ryan Prenger ,

Ryan Timbrook ,

Ryota Egashira ,

Sadegh Mahdavi ,

Sagar Singh Ashutosh Joshi ,

Sahil Modi ,

Samuel Kriman ,

Sandeep Pombra ,

Sanjay Kariyappa ,

Sanjeev Satheesh ,

Santiago Pombo ,

Saori Kaji ,

Satish Pasumarthi ,

Saurav Mishra ,

Saurav Muralidharan ,

Scott Hara ,

Sean Narenthiran ,

Sebastian Rogawski ,

Seonjin Na ,

Seonmyeong Bak ,

Sepehr Sameni ,

Seth Poulos ,

Shahar Mor ,

Shantanu Acharya ,

Shaona Ghosh Adam Lord ,

Sharath Turuvekere Sreenivas ,

Shaun Kotek ,

Shaya Gharghabi ,

Shelby Thomas ,

Sheng-Chieh Lin ,

Shibani Likhite ,

Shiqing Fan ,

Shiyang Chen ,

Shreya Gopal ,

Shrimai Prabhumoye ,

Shubham Pachori ,

Shubham Toshniwal ,

Shuo Zhang ,

Shuoyang Ding ,

Shyam Renjith ,

Shyamala Prayaga ,

Siddhartha Jain ,

Simeng Sun ,

Sirisha Rella ,

Sirshak Das ,

Smita Ithape ,

Sneha Harishchandra S ,

Somshubra Majumdar ,

Soumye Singhal ,

Sri Harsha Singudasu ,

Sriharsha Niverty ,

Stas Sergienko ,

Stefana Gloginic ,

Stefania Alborghetti ,

Stephen Ge ,

Stephen McCullough ,

Sugam Dipak Devare ,

Suguna Varshini Velury ,

Sukrit Rao ,

Sumeet Kumar Barua ,

Sunny Gai ,

Suseella Panguluri ,

Sushil Koundinyan ,

Swathi Patnam ,

Sweta Priyadarshi ,

Swetha Bhendigeri ,

Syeda Nahida Akter ,

Sylendran Arunagiri ,

Tailling Yuan ,

Talor Abramovich ,

Tan Bui ,

Tan Yu ,

Terry Kong ,

Thanh Do ,

Thomas Gburek ,

Thorgane Marques ,

Tiffany Moore ,

Tijmen Blankevoort ,

Tim Moon ,

Timothy Ma ,

Tiyasa Mitra ,

Tomasz Grzegorzek ,

Tomer Asida ,

Tomer Bar Natan ,

Tomer Keren ,

Tomer Ronen ,

Traian Rebedea ,

Trenton Starkey ,

Tugrul Konuk ,

Twinkle Vashishth ,

Tyler Condensa ,

Udi Karpas ,

Ushnish De ,

Vahid Noorozi ,

Vahid Noroozi ,

Vanshil Atul Shah ,

Veena Vaidyanathan ,

Venkat Srinivasan ,

Venmugil Elango ,

Victor Cui ,

Vijay Korthikanti ,

Vikas Mehta ,

Virginia Adams ,

Virginia Wu ,

Vitaly Kurin ,

Vitaly Lavrukhin ,

Vladimir Anisimov ,

Wan Seo ,

Wanli Jiang ,

Wasi Uddin Ahmad ,

Wei Du ,

Wei Ping ,

Wei-Ming Chen ,

Wendy Quan ,

Wenliang Dai ,

Wenwen Gao ,

Will Jennings ,

William Zhang ,

Xiaowei Ren ,

Xiaowen Xin ,

Xin Li ,

Yang Yu ,

Yangyi Chen ,

Yaniv Galron ,

Yashaswi Karnati ,

Yejin Choi ,

Yev Meyer ,

Yi-Fu Wu ,

Yian Zhang ,

Ying Lin ,

Yonatan Geifman ,

Yonggan Fu ,

Yoshi Suhara ,

Youngeun Kwon ,

Yuan Zhang ,

Yuki Huang ,

Zach Moshe ,

Zhilin Wang ,

Zhiyu Cheng ,

Zhongbo Zhu ,

Zhuolin Yang ,

Zihan Liu ,

Zijia Chen ,

Zijie Yan ,

Zuhair Ahmed

热度 329

2026年04月14日

简介

我们介绍了Nemotron 3 Super模型的预训练、后训练及量化过程。该模型是一个参数量达1200亿（其中活跃参数为120亿）的混合型Mamba-注意力机制专家混合（Mixture-of-Experts, MoE）模型。Nemotron 3 Super是Nemotron 3系列中首个具备以下三项关键特性的模型：（1）采用NVFP4精度进行预训练；（2）采用LatentMoE——一种新型专家混合架构，兼顾每浮点运算（FLOP）精度与每参数精度的双重优化目标；（3）集成MTP（Multi-Token Prediction）层，通过原生推测解码（native speculative decoding）技术显著加速推理过程。我们使用25万亿个词元对Nemotron 3 Super完成了预训练，并在此基础上，进一步开展监督微调（SFT）和强化学习（RL）等后训练流程。最终发布的模型支持最长可达100万词元的上下文长度，在主流基准测试中展现出与同类模型相当的准确率，同时在推理吞吐量上相较GPT-OSS-120B和Qwen3.5-122B分别提升最高达2.2倍和7.5倍。Nemotron 3 Super所使用的全部训练数据集，以及基础模型、后训练完成模型和量化后模型的检查点（checkpoints），均已开源至Hugging Face平台。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在保持大语言模型（120B参数）高性能的同时，显著提升训练与推理的计算效率、内存效率和吞吐量；具体挑战包括：高参数量带来的FLOPs与显存开销、长上下文（1M tokens）下的延迟瓶颈、MoE稀疏性与精度-效率权衡的固有矛盾，以及量化（尤其是极低位宽）对模型能力的损害。
关键思路

提出三重协同创新：1) 首次在NVFP4（4-bit非对称浮点）原生精度下完成全阶段预训练（而非传统FP16/BF16→后量化），大幅降低显存与带宽压力；2) 引入LatentMoE——一种隐式专家选择机制，在前馈层中动态学习专家激活模式，兼顾参数效率（仅12B活跃参数）与FLOP效率（避免冗余路由计算）；3) 集成MTP（Multi-Token Prediction）层，实现无需额外模型的原生 speculative decoding，加速自回归生成。
其它亮点

预训练规模达25T tokens；支持1M上下文长度；在主流基准（MMLU、GPQA、HumanEval等）上与GPT-OSS-120B、Qwen3.5-122B精度相当；推理吞吐达其2.2x和7.5x；全部数据集、base/post-trained/quantized检查点（含NVFP4权重）已在HuggingFace开源；实验涵盖消融验证LatentMoE路由开销、MTP预测窗口长度影响及NVFP4训练稳定性；值得深入的方向包括：NVFP4训练的理论收敛性分析、LatentMoE在多模态架构中的迁移、MTP与硬件解码器协同优化。
相关研究

Mamba-2: Structured State Spaces for Efficient Language Modeling (ICML 2024); Mixtral of Experts: A Sparse Mixture-of-Experts Architecture (2023); Qwen3.5: Scaling Vision-Language Reasoning with Long Context (2024); GPT-OSS: Open-Sourcing a 120B Parameter Foundation Model (2024); SpecInfer: Accelerating Generative LLMs via Speculative Inference (OSDI 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问