NEW

Kimi Linear: An Expressive, Efficient Attention Architecture

Kimi Team ,

Yu Zhang ,

Zongyu Lin ,

Xingcheng Yao ,

Jiaxi Hu ,

Fanqing Meng ,

Chengyin Liu ,

Xin Men ,

Songlin Yang ,

Zhiyuan Li ,

Wentao Li ,

Enzhe Lu ,

Weizhou Liu ,

Yanru Chen ,

Weixin Xu ,

Longhui Yu ,

Yejie Wang ,

Yu Fan ,

Longguang Zhong ,

Enming Yuan ,

Dehao Zhang ,

Yizhi Zhang ,

T. Y. Liu ,

Haiming Wang ,

Shengjun Fang ,

Weiran He ,

Shaowei Liu ,

Yiwei Li ,

Jianlin Su ,

Jiezhong Qiu ,

Bo Pang ,

Junjie Yan ,

Zhejun Jiang ,

Weixiao Huang ,

Bohong Yin ,

Jiacheng You ,

Chu Wei ,

Zhengtao Wang ,

Chao Hong ,

Yutian Chen ,

Guanduo Chen ,

Yucheng Wang ,

Huabin Zheng ,

Feng Wang ,

Yibo Liu ,

Mengnan Dong ,

Zheng Zhang ,

Siyuan Pan ,

Wenhao Wu ,

Yuhao Wu ,

Longyu Guan ,

Jiawen Tao ,

Guohong Fu ,

Xinran Xu ,

Yuzhi Wang ,

Guokun Lai ,

Yuxin Wu ,

Xinyu Zhou ,

Zhilin Yang ,

Yulun Du

热度 335

2025年10月30日

简介

我们提出Kimi Linear，这是一种混合线性注意力架构，在包括短上下文、长上下文以及强化学习（RL）扩展在内的多种场景下，首次在公平比较中超越了全注意力机制。其核心是Kimi Delta Attention（KDA），一种表达能力强的线性注意力模块，它在Gated DeltaNet基础上引入了更精细的门控机制，从而更有效地利用有限状态RNN的内存。我们定制的分块算法通过采用一种特殊的“对角加低秩”（Diagonal-Plus-Low-Rank, DPLR）转移矩阵变体，实现了高硬件效率：相比通用DPLR公式大幅减少了计算量，同时更贴近经典的Delta学习规则。我们基于KDA与多头潜在注意力（Multi-Head Latent Attention, MLA）的层间混合结构，预训练了一个拥有30亿激活参数、总计480亿参数的Kimi Linear模型。实验表明，在完全相同的训练配置下，Kimi Linear在所有评估任务上均显著优于全MLA模型，同时将KV缓存使用量最多减少75%，并在处理100万长度上下文时实现最高达6倍的解码吞吐量提升。这些结果表明，Kimi Linear可以作为全注意力架构的一种即插即用替代方案，在性能和效率方面均表现更优，尤其适用于输入和输出长度更长的任务。为支持后续研究，我们开源了KDA内核及vLLM实现，并发布了预训练模型和经过指令微调的模型检查点。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决传统全注意力机制在长上下文场景下计算开销大、显存占用高、解码速度慢的问题，同时保持甚至提升模型性能。尤其是在短上下文、长上下文以及强化学习扩展等不同场景中，如何设计一种高效且表达能力强的注意力替代方案。这个问题在当前大模型向更长上下文和更高效率发展的背景下至关重要，虽然已有线性注意力的研究，但此前尚未有在线性注意力架构中全面超越全注意力的公平比较结果，因此具有新颖性和现实需求。
关键思路

提出Kimi Delta Attention（KDA），一种基于Gated DeltaNet并引入细粒度门控机制的新型线性注意力模块，增强有限状态RNN记忆的利用效率；结合专有的chunkwise算法和改进的对角低秩（DPLR）变换矩阵，显著降低计算复杂度，同时更贴近经典delta学习规则。整体构成Kimi Linear混合线性注意力架构，在保持表达能力的同时实现高效推理。其核心新意在于首次在包括短/长上下文和RL等多种场景下，以相同训练配置全面超越全注意力模型，打破了‘线性注意力性能低于全注意力’的传统认知。
其它亮点

- 提出并实现了3B激活参数、48B总参数的Kimi Linear模型，采用KDA与MLA的层间混合结构； - 在相同训练流程下，全面优于全注意力MLA模型，性能提升显著； - KV缓存减少最多达75%，1M长上下文下的解码吞吐提升最高6倍； - 实验覆盖短上下文、长上下文和强化学习扩展多个场景，验证了通用性和可扩展性； - 开源KDA内核和vLLM实现，并发布预训练与指令微调模型权重，支持社区复现与进一步研究； - 为线性注意力作为全注意力的‘即插即用’替代方案提供了强有力证据，尤其适用于长输入输出任务。未来值得深入探索KDA在更多模态、更大规模模型中的泛化能力，以及其在边缘设备部署中的潜力。
相关研究

- Efficient Transformers: A Survey (Tunstall et al., 2021) - FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (Dao & Rush, 2022) - RetNet: The Return of the Implicit Attention (Microsoft, 2023) - Scaling Monotonic Attention for Long Context (Google, 2024) - DeltaNet: A Recurrent Neural Network for Sequence Modeling with Linear Complexity (Chen et al.) - Gated Linear Networks and Gated DeltaNet (DeepMind, 2022–2023) - vLLM: Easy, Fast and Affordable LLM Serving (UC Berkeley, 2023) 近期相关工作集中在降低注意力计算复杂度，如FlashAttention优化全注意力IO效率，RetNet引入隐式注意力回归RNN范式，而Kimi Linear在表达力与效率之间取得新平衡，是首个在多场景公平对比下全面超越全注意力的线性注意力架构。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问