Your Transformer is Secretly Linear

2024年05月19日
  • 简介
    本文揭示了一种独特的线性特征,仅适用于Transformer解码器,包括GPT、LLaMA、OPT、BLOOM等模型。我们分析了顺序层之间的嵌入变换,揭示了近乎完美的线性关系(Procrustes相似度得分为0.99)。然而,由于Transformer层的输出范数一直很低,当去除残差成分时,线性度会下降。我们的实验表明,去除或线性逼近一些最线性的Transformer块并不会显著影响损失或模型性能。此外,在我们对较小模型进行预训练的实验中,我们引入了基于余弦相似度的正则化,旨在减少层的线性度。这种正则化提高了Tiny Stories和SuperGLUE等基准测试的性能指标,并成功降低了模型的线性度。这项研究挑战了人们对Transformer架构的现有理解,表明它们的操作可能比以前认为的更线性。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在揭示transformer解码器中一种新的线性特征,并探究其对模型性能的影响。该研究挑战了现有对transformer架构的理解。
  • 关键思路
    本文揭示了transformer解码器中一种线性特征,并提出了一种基于余弦相似度的正则化方法,用于减少模型的线性程度,从而提高性能。
  • 其它亮点
    本文发现transformer解码器中存在一种线性特征,并提出了一种正则化方法,该方法在Tiny Stories和SuperGLUE等基准测试中提高了性能。作者还展示了移除或近似一些最线性的transformer块对模型性能的影响不大。该研究为transformer架构的理解带来了新的挑战。
  • 相关研究
    最近的相关研究包括《Attention is Not Explanation》、《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问