NEW

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

Ling Team ,

Ang Li ,

Ben Liu ,

Binbin Hu ,

Bing Li ,

Bingwei Zeng ,

Borui Ye ,

Caizhi Tang ,

Changxin Tian ,

Chao Huang ,

Chao Zhang ,

Chen Qian ,

Chenchen Ju ,

Chenchen Li ,

Chengfu Tang ,

Chilin Fu ,

Chunshao Ren ,

Chunwei Wu ,

Cong Zhang ,

Cunyin Peng ,

Dafeng Xu ,

Daixin Wang ,

Dalong Zhang ,

Dingnan Jin ,

Dingyuan Zhu ,

Dongke Hu ,

Fangzheng Zhao ,

Feifan Wu ,

Feng Zhu ,

Gangshan Wang ,

Haitao Zhang ,

Hailin Zhao ,

Hanxiao Zhang ,

Hanzi Wang ,

Hao Qian ,

Haoyi Yu ,

Heng Zhang ,

Hongliang Zhang ,

Hongzhi Luan ,

Huirong Dong ,

Huizhong Li ,

Jia Li ,

Jia Liu ,

Jialong Zhu ,

Jian Sha ,

Jianping Wei ,

Jiaolong Yang ,

Jieyue Ma ,

Jiewei Wu ,

Jinjing Huang ,

Jingyun Tian ,

Jingyuan Zhang ,

Jinquan Sun ,

Juanhui Tu ,

Jun Liu ,

Jun Xu ,

Jun Zhou ,

Junjie Ou ,

Junpeng Fang ,

Kaihong Zhang ,

Kaiqin Hu ,

Ke Shi ,

Kun Tang ,

Kunlong Chen ,

Lanyin Mei ,

Lei Liang ,

Lei Xu ,

Libo Zhang ,

Lin Ju ,

Lin Yuan ,

Ling Zhong ,

Lintao Ma ,

Lu Liu ,

Lu Yu ,

Lun Cai ,

Meiqi Zhu ,

Mengying Li ,

Min Chen ,

Minghao Xue ,

Minghong Cai ,

Mingming Yin ,

Peijie Jiang ,

Peilong Zhao ,

Pingping Liu ,

Qian Zhao ,

Qing Cui ,

Qingxiang Huang ,

Qingyuan Yang ,

Quankun Yu ,

Shaowei Wei ,

Shijie Lian ,

Shoujian Zheng ,

Shun Song ,

Shungen Zhang ,

Shuo Zhang ,

Siyuan Li ,

Song Liu ,

Ting Guo ,

Tong Zhao ,

Wanli Gu ,

Weichang Wu ,

Weiguang Han ,

Wenjing Fang ,

Wubin Wang ,

Xiang Shu ,

Xiao Shi ,

Xiaoshun Lan ,

Xiaolu Zhang ,

Xiaqing Sun ,

Xin Zhao ,

Xingyu Lu ,

Xiong Xu ,

Xudong Wang ,

Xuemin Yang ,

Yajie Yang ,

Yang Xiang ,

Yanzhe Li ,

Yi Zhang ,

Yilong Wang ,

Yingxue Li ,

Yongzhen Guo ,

Yuzhuo Fu ,

Yuanyuan Wang ,

Yue Yang ,

Yue Yu ,

Yufeng Deng ,

Yun Zhang ,

Yunfei Yu ,

Yuqi Zhang ,

Yuxiao He ,

Zengke Gui ,

Zhaoxin Huan ,

Zhaoyang Wang ,

Zhibo Zhu ,

Zhihao Wang ,

Zhiqiang Zhang ,

Zhoufei Wang ,

Zihang Zeng ,

Ziqi Liu ,

Zitao Xuan ,

Zuoli Tang

热度 1332

2025年10月25日

简介

我们推出Ling 2.0，这是一系列以“每次激活均提升推理能力”为核心理念构建的、面向推理的语言基础模型。Ling 2.0基于统一的专家混合（MoE）范式设计，可从数百亿参数规模扩展至一万亿参数，强调高稀疏性、跨尺度一致性，并依据实证缩放规律实现高效训练。该系列包含三个非思考型（指令遵循）模型：Ling-mini-2.0、Ling-flash-2.0 和 Ling-1T，总参数量从160亿到一万亿不等，在激活计算效率方面最高可达同等稠密模型的7倍。Ling 2.0 在模型架构、预训练、后训练及基础设施层面实现了协同创新：采用支持MTP的高稀疏度MoE结构以实现高效推理；构建面向推理的数据集并引入中期训练思维链（CoT）激活机制；应用基于强化学习的微调方法（DFT、Evo-CoT）；以及通过细粒度异构流水线实现全规模FP8训练。在万亿参数级别，Ling-1T 在推理准确性与计算效率之间建立了新的帕累托前沿，表明当稀疏激活与推理目标恰当对齐时，能够实现可扩展且高效的智能。总体而言，Ling 2.0 为推进未来的推理与思考模型提供了一个连贯、开放且高效的基石，包括建立在同一基础之上的Ring系列模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大规模语言模型在推理任务中计算效率低下的问题，尤其是在扩展到万亿参数规模时如何保持高效且强大的推理能力。传统密集模型在扩展过程中面临计算资源消耗大、推理效率低的问题，而Ling 2.0旨在通过高稀疏性的Mixture-of-Experts架构，在不牺牲性能的前提下显著提升推理效率。这是一个持续受到关注的问题，但将万亿级MoE模型与系统性推理优化结合仍具有较强的新颖性。
关键思路

Ling 2.0的核心思想是‘每次激活都增强推理能力’，基于统一的高稀疏Mixture-of-Experts（MoE）架构，构建从百亿到万亿参数规模一致高效的推理模型系列。其关键创新在于将MoE的稀疏激活特性与推理目标深度对齐，引入多尺度一致性设计、中间阶段思维链激活（mid-training CoT）、强化学习微调（DFT, Evo-CoT）以及全FP8精度训练和细粒度异构流水线，从而实现高达7倍于稠密模型的有效计算效率提升。
其它亮点

Ling 2.0系列包含Ling-mini-2.0、Ling-flash-2.0和Ling-1T三个非思考型指令模型，参数范围从16B到1T，支持高效推理部署。实验设计覆盖多种推理基准，验证了其在保持高准确率的同时大幅降低激活计算量。特别地，Ling-1T在万亿规模下建立了新的‘推理精度-计算效率’帕累托前沿。该工作还实现了全规模FP8训练和高效分布式基础设施支持。目前尚未明确提及代码开源，但其架构和训练范式为后续推理导向模型（如Ring系列）提供了可复用基础，值得深入探索MoE与思维链协同机制。
相关研究

1. Scaling Language Models with Mixture of Experts (2023) 2. GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (2022) 3. Chinchilla's Cognitive Profile: Rethinking Training Compute for Reasoning (2023) 4. DeepSeek-MoE: Towards Ultra-High Efficiency in Large Language Models (2024) 5. Evolving Chain-of-Thought through Reinforcement Learning (Evo-CoT, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问