When Attention Sink Emerges in Language Models: An Empirical View

简介

语言模型（LMs）赋予第一个标记（token）显著的注意力，即使它在语义上不重要，这被称为注意力汇聚（attention sink）。这种现象已被广泛应用于流/长上下文生成、KV缓存优化、推理加速、模型量化等应用中。尽管它被广泛使用，但对LMs中的注意力汇聚仍缺乏深入的理解。在这项工作中，我们首先证明了注意力汇聚在各种输入的LMs中普遍存在，即使在小模型中也是如此。此外，在LMs预训练期间观察到了注意力汇聚的出现，这促使我们研究LMs预训练中优化、数据分布、损失函数和模型架构如何影响其出现。我们强调，注意力汇聚是在充分的训练数据上进行有效优化后出现的。汇聚位置与损失函数和数据分布高度相关。最重要的是，我们发现注意力汇聚更像是关键偏差，存储额外的注意力分数，可能是非信息性的，不会对价值计算产生贡献。我们还观察到，这种现象（至少部分地）源于标记对注意力分数的内部依赖，这是softmax归一化的结果。通过用其他注意力操作（如无归一化的sigmoid注意力）替换softmax注意力，放松这种依赖关系后，LMs中不会出现注意力汇聚，直到1B参数。代码可在https://github.com/sail-sg/Attention-Sink上获得。
图表
解决问题

本文试图解决语言模型中的注意力陷阱问题，即模型会赋予第一个token过高的注意力权重，而这个token并不一定具有语义上的重要性。作者想要探究这个现象的普遍性以及其在模型预训练中的出现原因。
关键思路

本文的关键思路是通过替换softmax注意力机制为其他机制（如无标准化的sigmoid注意力）来解决注意力陷阱问题，实验结果表明这样的替换可以有效地避免注意力陷阱的出现。
其它亮点

本文通过实验验证了注意力陷阱的普遍存在性，并探究了模型预训练中优化、数据分布、损失函数和模型结构等因素对注意力陷阱的影响。作者发现注意力陷阱更像是键偏差，存储了额外的注意力权重，这些权重可能是无意义的，不会对值计算产生贡献。此外，作者还开源了相关代码。
相关研究

最近的相关研究包括《Attention is not Explanation》和《On the Relationship between Self-Attention and Convolutional Layers》等。

When Attention Sink Emerges in Language Models: An Empirical View

评论