- 简介本文揭示了一种独特的线性特征,仅适用于Transformer解码器,包括GPT、LLaMA、OPT、BLOOM等模型。我们分析了顺序层之间的嵌入变换,揭示了近乎完美的线性关系(Procrustes相似度得分为0.99)。然而,由于Transformer层的输出范数一直很低,当去除残差成分时,线性度会下降。我们的实验表明,去除或线性逼近一些最线性的Transformer块并不会显著影响损失或模型性能。此外,在我们对较小模型进行预训练的实验中,我们引入了基于余弦相似度的正则化,旨在减少层的线性度。这种正则化提高了Tiny Stories和SuperGLUE等基准测试的性能指标,并成功降低了模型的线性度。这项研究挑战了人们对Transformer架构的现有理解,表明它们的操作可能比以前认为的更线性。
-
- 图表
- 解决问题本文旨在揭示transformer解码器中一种新的线性特征,并探究其对模型性能的影响。该研究挑战了现有对transformer架构的理解。
- 关键思路本文揭示了transformer解码器中一种线性特征,并提出了一种基于余弦相似度的正则化方法,用于减少模型的线性程度,从而提高性能。
- 其它亮点本文发现transformer解码器中存在一种线性特征,并提出了一种正则化方法,该方法在Tiny Stories和SuperGLUE等基准测试中提高了性能。作者还展示了移除或近似一些最线性的transformer块对模型性能的影响不大。该研究为transformer架构的理解带来了新的挑战。
- 最近的相关研究包括《Attention is Not Explanation》、《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》等。


提问交流