- 简介我们推出LongCat-Flash,这是一款拥有5600亿参数的专家混合(MoE)语言模型,专为实现计算效率与先进代理能力而设计。出于对可扩展效率的需求,LongCat-Flash采用了两项创新设计:(a)零计算专家(Zero-computation Experts),该机制支持动态分配计算资源,根据上下文需求,每个token激活186亿至313亿参数(平均270亿),从而优化资源利用;(b)捷径连接的MoE(Shortcut-connected MoE),通过扩大计算与通信重叠的时间窗口,在推理效率和吞吐量方面相比同等规模模型表现出显著提升。我们开发了一套全面的大型模型扩展训练框架,结合超参数迁移、模型增长初始化、多维度稳定性保障措施以及确定性计算,实现了稳定且可复现的训练过程。尤为值得一提的是,依托可扩展的架构设计与基础设施的协同优化,我们在30天内完成了超过20万亿token的模型训练,同时实现了每秒超过100个token(TPS)的推理速度,输出每百万token的成本仅为0.70美元。为了推动LongCat-Flash向代理智能发展,我们首先在优化的数据混合上进行大规模预训练,随后针对推理、代码生成和指令遵循等任务开展有重点的中期与后期训练,并进一步引入合成数据和工具使用任务以增强模型能力。全面评估表明,作为一款非“思维链”型的基础模型,LongCat-Flash在众多领先模型中展现出极具竞争力的性能,尤其在代理类任务中表现卓越。LongCat-Flash的模型权重已开源,以促进学术界和社区的研究发展。 LongCat 聊天入口:https://longcat.ai Hugging Face 页面:https://huggingface.co/meituan-longcat GitHub 仓库:https://github.com/meituan-longcat
-
- 图表
- 解决问题论文旨在解决大规模语言模型在计算效率与智能体(agentic)能力之间的平衡问题,特别是在高吞吐推理和动态资源分配方面的挑战。随着模型规模的持续增长,传统稠密模型在训练和推理成本上变得不可持续,而现有MoE架构在通信-计算重叠和灵活性方面仍有局限。这是一个持续受到关注的问题,但结合零计算专家与快捷连接MoE的设计提出了新的优化路径。
- 关键思路提出LongCat-Flash,一种具有5600亿参数的Mixture-of-Experts(MoE)语言模型,引入两个核心创新:(a) 零计算专家(Zero-computation Experts),实现基于上下文需求的动态计算预算分配,平均每token仅激活270亿参数;(b) 快捷连接MoE(Shortcut-connected MoE),扩大计算与通信的重叠窗口,显著提升推理效率和吞吐量。此外,构建了一套包含超参数迁移、模型增长初始化、多维度稳定性保障和确定性计算的可扩展训练框架,实现了高效稳定的大规模训练。
- 其它亮点在超过20万亿token上完成训练,30天内收敛;推理速度超过100 tokens/秒,每百万输出token成本仅0.70美元;支持合成数据增强与工具使用训练,强化智能体能力;在推理、代码、指令遵循等任务中表现优异,尤其在agentic任务上具备领先竞争力;模型已全面开源,发布于Hugging Face和GitHub,并提供在线体验平台LongCat Chat,极大促进社区研究与复现。
- 相关研究包括Google的GLaM模型('Globally Normalized Mixture of Adaptive Experts')、DeepSeek-MoE架构分析、Meta的Llama-3系列对可扩展训练的探索、以及Microsoft提出的InfMonk('Improving Inference Efficiency in Mixture-of-Experts Models')。近期工作如Mistral AI的Mixtral也推动了稀疏激活MoE的发展,但缺乏动态计算调度与系统级优化协同设计。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流