Do Transformers Need Three Projections? Systematic Study of QKV Variants

向作者提问

NEW

简介

Transformer 已成为各类人工智能任务的标准解决方案，其中查询（Query）、键（Key）和值（Value）三者构成的注意力机制（即 QKV 注意力范式）处于核心地位。然而，这三项线性投影各自所起的作用，以及省略其中某一项所带来的实际影响，目前仍缺乏系统性理解。为此，我们系统评估了三种投影共享约束方案：a）Q–K=V（键与值共享同一投影）；b）Q=K–V（查询与键共享同一投影）；c）Q=K=V（三者完全共享单一投影）。后两种变体将导致注意力图呈对称结构；为缓解该问题，我们进一步探索了借助二维位置编码实现非对称注意力的策略。我们在涵盖合成任务、计算机视觉（MNIST、CIFAR、TinyImageNet、异常检测）及语言建模（分别在 100 亿词符数据集上训练参数量为 3 亿和 12 亿的模型）等广泛场景下开展实验，结果表明：采用上述投影共享策略的 Transformer 模型，其性能整体上与标准 QKV Transformer 相当，部分任务中甚至略有提升。在语言建模任务中，Q–K=V 投影共享方案可在仅造成 3.1% 困惑度（perplexity）上升的前提下，将 KV 缓存占用量降低 50%。尤为关键的是，投影共享与头共享技术（如 GQA 或 MQA）具有正交互补性：将 Q–K=V 与 GQA-4 结合，可实现高达 87.5% 的 KV 缓存压缩；而 Q–K=V 与 MQA 联用则可将缓存压缩率进一步提升至 96.9%，从而切实支持终端设备上的高效推理部署。我们进一步揭示，Q–K=V 方案能较好保持模型质量，其根本原因在于键与值天然适配于相近的表征空间，且注意力机制本身运行于低秩（low-rank）状态；相比之下，Q=K–V 则会破坏注意力机制固有的方向性（directionality），导致性能显著下降。本研究系统刻画了投影共享这一尚未被充分探索的注意力权重绑定（weight tying）范式，不仅从理论上阐明其内在机理，更直接、量化地证实了其在推理阶段显著降低内存开销的优势——这对边缘计算与终端部署尤其具有重要价值。相关代码已开源，详见：https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探究Transformer中QKV三投影是否均为必要：即query、key、value三个独立线性投影是否可被简化（如共享权重），以降低内存开销（尤其是KV缓存）而不显著损害模型性能。该问题在实践中至关重要（尤其对边缘部署），但此前缺乏系统性实证分析，属于对注意力机制基础设计假设的验证性新探索。
关键思路

提出三种结构化投影共享约束（Q-K=V、Q=K-V、Q=K=V），并首次系统揭示Q-K=V（共享KV）在理论合理性（KV语义空间相近、注意力低秩性）与实证效果上最优；同时引入2D位置编码缓解对称性缺陷。其新意在于将投影共享定位为一种‘有原则的权重绑定’，而非简单压缩，并从表示学习和矩阵结构角度给出可解释性洞见。
其它亮点

实验覆盖合成任务、视觉（MNIST/CIFAR/TinyImageNet/异常检测）和语言建模（300M/1.2B模型，10B tokens）；Q-K=V实现50% KV缓存缩减仅+3.1% PPL；与GQA-4/MQA结合达87.5%/96.9%总缓存削减；代码完全开源（https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections）；关键发现——Q=K-V破坏注意力方向性而失效，凸显Q与KV功能本质差异；值得深入：低秩注意力理论建模、硬件感知共享架构自动搜索、跨模态投影共享泛化性。
相关研究

Attention Is All You Need (Vaswani et al., 2017); GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (Ainslie et al., 2023); MQA: Fast Inference from Multilingual Transformers via Shared Keys and Values (Chen et al., 2023); ALiBi: Attention with Linear Biases (Press et al., 2022); Low-Rank Adaptation of Large Language Models (Hu et al., 2022); Weight Tying in Neural Language Models (Inan et al., 2017)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问