- 简介我们推出Ling 2.0,这是一系列以“每次激活均提升推理能力”为核心理念构建的、面向推理的语言基础模型。Ling 2.0基于统一的专家混合(MoE)范式设计,可从数百亿参数规模扩展至一万亿参数,强调高稀疏性、跨尺度一致性,并依据实证缩放规律实现高效训练。该系列包含三个非思考型(指令遵循)模型:Ling-mini-2.0、Ling-flash-2.0 和 Ling-1T,总参数量从160亿到一万亿不等,在激活计算效率方面最高可达同等稠密模型的7倍。Ling 2.0 在模型架构、预训练、后训练及基础设施层面实现了协同创新:采用支持MTP的高稀疏度MoE结构以实现高效推理;构建面向推理的数据集并引入中期训练思维链(CoT)激活机制;应用基于强化学习的微调方法(DFT、Evo-CoT);以及通过细粒度异构流水线实现全规模FP8训练。在万亿参数级别,Ling-1T 在推理准确性与计算效率之间建立了新的帕累托前沿,表明当稀疏激活与推理目标恰当对齐时,能够实现可扩展且高效的智能。总体而言,Ling 2.0 为推进未来的推理与思考模型提供了一个连贯、开放且高效的基石,包括建立在同一基础之上的Ring系列模型。
-
- 图表
- 解决问题论文试图解决大规模语言模型在推理任务中计算效率低下的问题,尤其是在扩展到万亿参数规模时如何保持高效且强大的推理能力。传统密集模型在扩展过程中面临计算资源消耗大、推理效率低的问题,而Ling 2.0旨在通过高稀疏性的Mixture-of-Experts架构,在不牺牲性能的前提下显著提升推理效率。这是一个持续受到关注的问题,但将万亿级MoE模型与系统性推理优化结合仍具有较强的新颖性。
- 关键思路Ling 2.0的核心思想是‘每次激活都增强推理能力’,基于统一的高稀疏Mixture-of-Experts(MoE)架构,构建从百亿到万亿参数规模一致高效的推理模型系列。其关键创新在于将MoE的稀疏激活特性与推理目标深度对齐,引入多尺度一致性设计、中间阶段思维链激活(mid-training CoT)、强化学习微调(DFT, Evo-CoT)以及全FP8精度训练和细粒度异构流水线,从而实现高达7倍于稠密模型的有效计算效率提升。
- 其它亮点Ling 2.0系列包含Ling-mini-2.0、Ling-flash-2.0和Ling-1T三个非思考型指令模型,参数范围从16B到1T,支持高效推理部署。实验设计覆盖多种推理基准,验证了其在保持高准确率的同时大幅降低激活计算量。特别地,Ling-1T在万亿规模下建立了新的‘推理精度-计算效率’帕累托前沿。该工作还实现了全规模FP8训练和高效分布式基础设施支持。目前尚未明确提及代码开源,但其架构和训练范式为后续推理导向模型(如Ring系列)提供了可复用基础,值得深入探索MoE与思维链协同机制。
- 1. Scaling Language Models with Mixture of Experts (2023) 2. GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (2022) 3. Chinchilla's Cognitive Profile: Rethinking Training Compute for Reasoning (2023) 4. DeepSeek-MoE: Towards Ultra-High Efficiency in Large Language Models (2024) 5. Evolving Chain-of-Thought through Reinforcement Learning (Evo-CoT, 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流