Your Transformer is Secretly Linear

简介

本文揭示了一种独特的线性特征，仅适用于Transformer解码器，包括GPT、LLaMA、OPT、BLOOM等模型。我们分析了顺序层之间的嵌入变换，揭示了近乎完美的线性关系（Procrustes相似度得分为0.99）。然而，由于Transformer层的输出范数一直很低，当去除残差成分时，线性度会下降。我们的实验表明，去除或线性逼近一些最线性的Transformer块并不会显著影响损失或模型性能。此外，在我们对较小模型进行预训练的实验中，我们引入了基于余弦相似度的正则化，旨在减少层的线性度。这种正则化提高了Tiny Stories和SuperGLUE等基准测试的性能指标，并成功降低了模型的线性度。这项研究挑战了人们对Transformer架构的现有理解，表明它们的操作可能比以前认为的更线性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在揭示transformer解码器中一种新的线性特征，并探究其对模型性能的影响。该研究挑战了现有对transformer架构的理解。
关键思路

本文揭示了transformer解码器中一种线性特征，并提出了一种基于余弦相似度的正则化方法，用于减少模型的线性程度，从而提高性能。
其它亮点

本文发现transformer解码器中存在一种线性特征，并提出了一种正则化方法，该方法在Tiny Stories和SuperGLUE等基准测试中提高了性能。作者还展示了移除或近似一些最线性的transformer块对模型性能的影响不大。该研究为transformer架构的理解带来了新的挑战。
相关研究

最近的相关研究包括《Attention is Not Explanation》、《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》等。

Your Transformer is Secretly Linear

提问交流

提问交流