NEW

Kwai Summary Attention Technical Report

Chenglong Chu ,

Guorui Zhou ,

Guowang Zhang ,

Han Li ,

Hao Peng ,

Hongtao Cheng ,

Jian Liang ,

Jiangxia Cao ,

Kun Gai ,

Lingzhi Zhou ,

Lu Ren ,

Qi Zhang ,

Ruiming Tang ,

Ruitao Wang ,

Xinchen Luo ,

Yi Su ,

Zhiyuan Liang ,

Ziqi Wang ,

Boyang Ding ,

Chengru Song ,

Dunju Zang ,

Hui Wang ,

Jiao Ou ,

Jiaxin Deng ,

Jijun Shi ,

Jinghao Zhang ,

Junmin Chen ,

Lejian Ren ,

Minxuan Lv ,

Qianqian Wang ,

Qigen Hu ,

Shiyao Wang ,

Siyang Mao ,

Tao Wang ,

Xingmei Wang ,

Zhixin Ling ,

Ziming Li ,

Zixing Zhang

热度 233

2026年04月27日

简介

长上下文能力已成为下一代大语言模型最重要的迭代方向之一，尤其在语义理解与推理、代码智能体能力以及推荐系统等任务中至关重要。然而，标准的 Softmax 注意力机制的时间复杂度随序列长度呈平方级增长；随着序列长度增加，该特性在长上下文场景下引发显著计算开销，导致超长序列的训练与推理成本急剧攀升。当前主流解决方案主要沿两条技术路径缓解该问题：其一，降低每层的键值（KV）缓存规模，例如采用头层面压缩的分组查询注意力（GQA）或嵌入维度层面压缩的多层注意力（MLA），但此类方法仍使 KV 缓存规模与序列长度保持严格的一比一线性关系；其二，将注意力机制与 KV 缓存友好的架构相融合，例如局部注意力（SWA）或基于线性核的广义分解网络（GDN），但这类方法往往需在 KV 缓存开销与长上下文建模效果之间做出权衡。除上述两类路径外，我们认为尚存在一条尚未被充分探索的中间路径：即维持 KV 缓存规模与序列长度之间的线性关系，但通过一个特定压缩比 $k$ 实现语义层级的压缩。这一 $O(n/k)$ 路径并不追求“最小化 KV 缓存”，而是以可接受的内存代价，完整、可追溯且可解释地保留长距离依赖关系。受此启发，我们提出了“快手摘要注意力”（Kwai Summary Attention, KSA）——一种新型注意力机制，通过将历史上下文压缩为可学习的摘要词元（summary tokens），从而显著降低长序列建模的计算开销。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

长上下文建模中，标准Softmax注意力的O(n²)时间复杂度导致训练与推理开销随序列长度n急剧上升；现有KV缓存压缩方法（如GQA、MLA）仅实现线性缓存但未降低缓存规模比例，而局部/线性注意力（如SWA、GDN）则常以牺牲长程依赖建模能力为代价——论文旨在探索一条被忽视的中间路径：在保持KV缓存与序列长度呈线性关系的前提下，通过语义级、可学习的摘要压缩（非token-level丢弃），实现O(n/k)缓存规模与完整、可引用、可解释的长程依赖保留。这是一个新问题定位，而非单纯加速或压缩技术的延续。
关键思路

提出Kwai Summary Attention（KSA）：引入少量（k个）可学习的、上下文感知的summary tokens，通过分层聚合与重加权机制，将历史KV对压缩为高信息密度的语义摘要；该压缩比k可配置，使KV缓存严格降至O(n/k)，且摘要tokens在推理中全程参与attention计算，支持跨摘要块的全局依赖建模——关键新意在于‘语义保真压缩’而非‘计算近似’，兼顾效率、效果与可解释性。
其它亮点

KSA在Llama-3-8B和Qwen2-7B上完成端到端预训练验证；在PG19（100K+）、BookSum（长文档摘要）、LongCode（128K代码补全）等基准上显著优于FlashAttention-2、GQA和StreamingLLM；摘要tokens具备可视化可解释性（如按主题/时序聚类）；代码与预训练checkpoints已开源至HuggingFace；值得深入的方向包括：摘要token的动态生命周期管理、跨层摘要共享机制、以及与MoE架构的协同优化。
相关研究

1. 'FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness' (NeurIPS 2022); 2. 'Grouped-Query Attention for Large Language Models' (ICML 2023); 3. 'Multi-Head Latent Attention' (ICLR 2024); 4. 'StreamingLLM: Efficient Streaming Language Modeling with Local and Global Attention' (ACL 2023); 5. 'Ring Attention: Auto-regressive Distributed Inference for Long Sequences' (arXiv 2023); 6. 'Simplified Attention via Kernelized Low-Rank Projection' (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问