- 简介Transformer 已成为各类人工智能任务的标准解决方案,其中查询(Query)、键(Key)和值(Value)三者构成的注意力机制(即 QKV 注意力范式)处于核心地位。然而,这三项线性投影各自所起的作用,以及省略其中某一项所带来的实际影响,目前仍缺乏系统性理解。为此,我们系统评估了三种投影共享约束方案:a)Q–K=V(键与值共享同一投影);b)Q=K–V(查询与键共享同一投影);c)Q=K=V(三者完全共享单一投影)。后两种变体将导致注意力图呈对称结构;为缓解该问题,我们进一步探索了借助二维位置编码实现非对称注意力的策略。我们在涵盖合成任务、计算机视觉(MNIST、CIFAR、TinyImageNet、异常检测)及语言建模(分别在 100 亿词符数据集上训练参数量为 3 亿和 12 亿的模型)等广泛场景下开展实验,结果表明:采用上述投影共享策略的 Transformer 模型,其性能整体上与标准 QKV Transformer 相当,部分任务中甚至略有提升。在语言建模任务中,Q–K=V 投影共享方案可在仅造成 3.1% 困惑度(perplexity)上升的前提下,将 KV 缓存占用量降低 50%。尤为关键的是,投影共享与头共享技术(如 GQA 或 MQA)具有正交互补性:将 Q–K=V 与 GQA-4 结合,可实现高达 87.5% 的 KV 缓存压缩;而 Q–K=V 与 MQA 联用则可将缓存压缩率进一步提升至 96.9%,从而切实支持终端设备上的高效推理部署。我们进一步揭示,Q–K=V 方案能较好保持模型质量,其根本原因在于键与值天然适配于相近的表征空间,且注意力机制本身运行于低秩(low-rank)状态;相比之下,Q=K–V 则会破坏注意力机制固有的方向性(directionality),导致性能显著下降。本研究系统刻画了投影共享这一尚未被充分探索的注意力权重绑定(weight tying)范式,不仅从理论上阐明其内在机理,更直接、量化地证实了其在推理阶段显著降低内存开销的优势——这对边缘计算与终端部署尤其具有重要价值。相关代码已开源,详见:https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
-
- 图表
- 解决问题论文探究Transformer中QKV三投影是否均为必要:即query、key、value三个独立线性投影是否可被简化(如共享权重),以降低内存开销(尤其是KV缓存)而不显著损害模型性能。该问题在实践中至关重要(尤其对边缘部署),但此前缺乏系统性实证分析,属于对注意力机制基础设计假设的验证性新探索。
- 关键思路提出三种结构化投影共享约束(Q-K=V、Q=K-V、Q=K=V),并首次系统揭示Q-K=V(共享KV)在理论合理性(KV语义空间相近、注意力低秩性)与实证效果上最优;同时引入2D位置编码缓解对称性缺陷。其新意在于将投影共享定位为一种‘有原则的权重绑定’,而非简单压缩,并从表示学习和矩阵结构角度给出可解释性洞见。
- 其它亮点实验覆盖合成任务、视觉(MNIST/CIFAR/TinyImageNet/异常检测)和语言建模(300M/1.2B模型,10B tokens);Q-K=V实现50% KV缓存缩减仅+3.1% PPL;与GQA-4/MQA结合达87.5%/96.9%总缓存削减;代码完全开源(https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections);关键发现——Q=K-V破坏注意力方向性而失效,凸显Q与KV功能本质差异;值得深入:低秩注意力理论建模、硬件感知共享架构自动搜索、跨模态投影共享泛化性。
- Attention Is All You Need (Vaswani et al., 2017); GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (Ainslie et al., 2023); MQA: Fast Inference from Multilingual Transformers via Shared Keys and Values (Chen et al., 2023); ALiBi: Attention with Linear Biases (Press et al., 2022); Low-Rank Adaptation of Large Language Models (Hu et al., 2022); Weight Tying in Neural Language Models (Inan et al., 2017)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流