- 简介语言模型(LMs)赋予第一个标记(token)显著的注意力,即使它在语义上不重要,这被称为注意力汇聚(attention sink)。这种现象已被广泛应用于流/长上下文生成、KV缓存优化、推理加速、模型量化等应用中。尽管它被广泛使用,但对LMs中的注意力汇聚仍缺乏深入的理解。在这项工作中,我们首先证明了注意力汇聚在各种输入的LMs中普遍存在,即使在小模型中也是如此。此外,在LMs预训练期间观察到了注意力汇聚的出现,这促使我们研究LMs预训练中优化、数据分布、损失函数和模型架构如何影响其出现。我们强调,注意力汇聚是在充分的训练数据上进行有效优化后出现的。汇聚位置与损失函数和数据分布高度相关。最重要的是,我们发现注意力汇聚更像是关键偏差,存储额外的注意力分数,可能是非信息性的,不会对价值计算产生贡献。我们还观察到,这种现象(至少部分地)源于标记对注意力分数的内部依赖,这是softmax归一化的结果。通过用其他注意力操作(如无归一化的sigmoid注意力)替换softmax注意力,放松这种依赖关系后,LMs中不会出现注意力汇聚,直到1B参数。代码可在https://github.com/sail-sg/Attention-Sink上获得。
- 图表
- 解决问题本文试图解决语言模型中的注意力陷阱问题,即模型会赋予第一个token过高的注意力权重,而这个token并不一定具有语义上的重要性。作者想要探究这个现象的普遍性以及其在模型预训练中的出现原因。
- 关键思路本文的关键思路是通过替换softmax注意力机制为其他机制(如无标准化的sigmoid注意力)来解决注意力陷阱问题,实验结果表明这样的替换可以有效地避免注意力陷阱的出现。
- 其它亮点本文通过实验验证了注意力陷阱的普遍存在性,并探究了模型预训练中优化、数据分布、损失函数和模型结构等因素对注意力陷阱的影响。作者发现注意力陷阱更像是键偏差,存储了额外的注意力权重,这些权重可能是无意义的,不会对值计算产生贡献。此外,作者还开源了相关代码。
- 最近的相关研究包括《Attention is not Explanation》和《On the Relationship between Self-Attention and Convolutional Layers》等。
沙发等你来抢
去评论
评论
沙发等你来抢