NEW

LongCat-Flash Technical Report

Meituan LongCat Team ,

Bayan ,

Bei Li ,

Bingye Lei ,

Bo Wang ,

Bolin Rong ,

Chao Wang ,

Chao Zhang ,

Chen Gao ,

Chen Zhang ,

Cheng Sun ,

Chengcheng Han ,

Chenguang Xi ,

Chi Zhang ,

Chong Peng ,

Chuan Qin ,

Chuyu Zhang ,

Cong Chen ,

Congkui Wang ,

Dan Ma ,

Daoru Pan ,

Defei Bu ,

Dengchang Zhao ,

Deyang Kong ,

Dishan Liu ,

Feiye Huo ,

Fengcun Li ,

Fubao Zhang ,

Gan Dong ,

Gang Liu ,

Gang Xu ,

Ge Li ,

Guoqiang Tan ,

Guoyuan Lin ,

Haihang Jing ,

Haomin Fu ,

Haonan Yan ,

Haoxing Wen ,

Haozhe Zhao ,

Hong Liu ,

Hongmei Shi ,

Hongyan Hao ,

Hongyin Tang ,

Huantian Lv ,

Hui Su ,

Jiacheng Li ,

Jiahao Liu ,

Jiahuan Li ,

Jiajun Yang ,

Jiaming Wang ,

Jian Yang ,

Jianchao Tan ,

Jiaqi Sun ,

Jiaqi Zhang ,

Jiawei Fu ,

Jiawei Yang ,

Jiaxi Hu ,

Jiayu Qin ,

Jingang Wang ,

Jiyuan He ,

Jun Kuang ,

Junhui Mei ,

Kai Liang ,

Ke He ,

Kefeng Zhang ,

Keheng Wang ,

Keqing He ,

Liang Gao ,

Liang Shi ,

Lianhui Ma ,

Lin Qiu ,

Lingbin Kong ,

Lingtong Si ,

Linkun Lyu ,

Linsen Guo ,

Liqi Yang ,

Lizhi Yan ,

Mai Xia ,

Man Gao ,

Manyuan Zhang ,

Meng Zhou ,

Mengxia Shen ,

Mingxiang Tuo ,

Mingyang Zhu ,

Peiguang Li ,

Peng Pei ,

Peng Zhao ,

Pengcheng Jia ,

Pingwei Sun ,

Qi Gu ,

Qianyun Li ,

Qingyuan Li ,

Qiong Huang ,

Qiyuan Duan ,

Ran Meng ,

Rongxiang Weng ,

Ruichen Shao ,

Rumei Li ,

Shizhe Wu ,

Shuai Liang ,

Shuo Wang ,

Suogui Dang ,

Tao Fang ,

Tao Li ,

Tefeng Chen ,

Tianhao Bai ,

Tianhao Zhou ,

Tingwen Xie ,

Wei He ,

Wei Huang ,

Wei Liu ,

Wei Shi ,

Wei Wang ,

Wei Wu ,

Weikang Zhao ,

Wen Zan ,

Wenjie Shi ,

Xi Nan ,

Xi Su ,

Xiang Li ,

Xiang Mei ,

Xiangyang Ji ,

Xiangyu Xi ,

Xiangzhou Huang ,

Xianpeng Li ,

Xiao Fu ,

Xiao Liu ,

Xiao Wei ,

Xiaodong Cai ,

Xiaolong Chen ,

Xiaoqing Liu ,

Xiaotong Li ,

Xiaowei Shi ,

Xiaoyu Li ,

Xili Wang ,

Xin Chen ,

Xing Hu ,

Xingyu Miao ,

Xinyan He ,

Xuemiao Zhang ,

Xueyuan Hao ,

Xuezhi Cao ,

Xunliang Cai ,

Xurui Yang ,

Yan Feng ,

Yang Bai ,

Yang Chen ,

Yang Yang ,

Yaqi Huo ,

Yerui Sun ,

Yifan Lu ,

Yifan Zhang ,

Yipeng Zang ,

Yitao Zhai ,

Yiyang Li ,

Yongjing Yin ,

Yongkang Lv ,

Yongwei Zhou ,

Yu Yang ,

Yuchen Xie ,

Yueqing Sun ,

Yuewen Zheng ,

Yuhuai Wei ,

Yulei Qian ,

Yunfan Liang ,

Yunfang Tai ,

Yunke Zhao ,

Zeyang Yu ,

Zhao Zhang ,

Zhaohua Yang ,

Zhenchao Zhang ,

Zhikang Xia ,

Zhiye Zou ,

Zhizhao Zeng ,

Zhongda Su ,

Zhuofan Chen ,

Zijian Zhang ,

Ziwen Wang ,

Zixu Jiang ,

Zizhe Zhao ,

Zongyu Wang ,

Zunhai Su

热度 1355

2025年09月01日

简介

我们推出LongCat-Flash，这是一款拥有5600亿参数的专家混合（MoE）语言模型，专为实现计算效率与先进代理能力而设计。出于对可扩展效率的需求，LongCat-Flash采用了两项创新设计：（a）零计算专家（Zero-computation Experts），该机制支持动态分配计算资源，根据上下文需求，每个token激活186亿至313亿参数（平均270亿），从而优化资源利用；（b）捷径连接的MoE（Shortcut-connected MoE），通过扩大计算与通信重叠的时间窗口，在推理效率和吞吐量方面相比同等规模模型表现出显著提升。我们开发了一套全面的大型模型扩展训练框架，结合超参数迁移、模型增长初始化、多维度稳定性保障措施以及确定性计算，实现了稳定且可复现的训练过程。尤为值得一提的是，依托可扩展的架构设计与基础设施的协同优化，我们在30天内完成了超过20万亿token的模型训练，同时实现了每秒超过100个token（TPS）的推理速度，输出每百万token的成本仅为0.70美元。为了推动LongCat-Flash向代理智能发展，我们首先在优化的数据混合上进行大规模预训练，随后针对推理、代码生成和指令遵循等任务开展有重点的中期与后期训练，并进一步引入合成数据和工具使用任务以增强模型能力。全面评估表明，作为一款非“思维链”型的基础模型，LongCat-Flash在众多领先模型中展现出极具竞争力的性能，尤其在代理类任务中表现卓越。LongCat-Flash的模型权重已开源，以促进学术界和社区的研究发展。 LongCat 聊天入口：https://longcat.ai Hugging Face 页面：https://huggingface.co/meituan-longcat GitHub 仓库：https://github.com/meituan-longcat
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大规模语言模型在计算效率与智能体（agentic）能力之间的平衡问题，特别是在高吞吐推理和动态资源分配方面的挑战。随着模型规模的持续增长，传统稠密模型在训练和推理成本上变得不可持续，而现有MoE架构在通信-计算重叠和灵活性方面仍有局限。这是一个持续受到关注的问题，但结合零计算专家与快捷连接MoE的设计提出了新的优化路径。
关键思路

提出LongCat-Flash，一种具有5600亿参数的Mixture-of-Experts（MoE）语言模型，引入两个核心创新：(a) 零计算专家（Zero-computation Experts），实现基于上下文需求的动态计算预算分配，平均每token仅激活270亿参数；(b) 快捷连接MoE（Shortcut-connected MoE），扩大计算与通信的重叠窗口，显著提升推理效率和吞吐量。此外，构建了一套包含超参数迁移、模型增长初始化、多维度稳定性保障和确定性计算的可扩展训练框架，实现了高效稳定的大规模训练。
其它亮点

在超过20万亿token上完成训练，30天内收敛；推理速度超过100 tokens/秒，每百万输出token成本仅0.70美元；支持合成数据增强与工具使用训练，强化智能体能力；在推理、代码、指令遵循等任务中表现优异，尤其在agentic任务上具备领先竞争力；模型已全面开源，发布于Hugging Face和GitHub，并提供在线体验平台LongCat Chat，极大促进社区研究与复现。
相关研究

相关研究包括Google的GLaM模型（'Globally Normalized Mixture of Adaptive Experts'）、DeepSeek-MoE架构分析、Meta的Llama-3系列对可扩展训练的探索、以及Microsoft提出的InfMonk（'Improving Inference Efficiency in Mixture-of-Experts Models'）。近期工作如Mistral AI的Mixtral也推动了稀疏激活MoE的发展，但缺乏动态计算调度与系统级优化协同设计。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问