Transformer Normalisation Layers and the Independence of Semantic Subspaces

向作者提问

NEW

简介

最近的研究表明，Transformer可以通过内部执行称为电路的计算图解决上下文推理任务。电路通常使用注意力来逻辑匹配来自表示子空间的信息，例如使用序列中的位置来识别前一个标记。在本文中，我们认为语义子空间是任何独立的潜在表示子空间，可以完全确定注意力分布。我们发现，现有最先进的Transformer中使用的预归一化层（Pre-Norm）违反了这种能力，除非模型学习到正交球体的严格表示结构。这是因为它会通过它们共同的归一化因子干扰线性子空间。理论上，我们通过将这种干扰建模为查询/键/值向量的$L_2$范数上的随机噪声来分析电路的稳定性，预测当稀疏注意力转移到不同的标记时，电路会发生崩溃现象。实证方面，我们调查了针对数学加法训练的实际模型的灵敏度，观察到当范数人工扰动不超过10％时，电路崩溃率为1％。我们将Pre-Norm与QKV-Norm进行对比，后者将归一化放置在注意力头的线性运算符之后。理论上，这放宽了表示约束。实际上，我们观察到了可比的分布内表现，但是分布外表现更差。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决预训练transformers中normalization layer的位置对模型性能和稳定性的影响问题，同时验证QKV-Norm相比Pre-Norm的优势是否存在。
关键思路

Pre-Norm的normalization layer的位置会导致不同的线性子空间之间互相干扰，从而影响模型的性能和稳定性。而QKV-Norm通过将normalization layer放在attention head的线性操作之后，可以缓解这种影响。
其它亮点

论文从理论和实验两个方面阐述了Pre-Norm和QKV-Norm的优劣。在理论上，通过模拟不同的噪声情况，预测了Pre-Norm会导致circuit collapse的现象。在实验上，通过对数学加法模型的实验，发现Pre-Norm和QKV-Norm在分布内表现相当，但QKV-Norm在分布外的表现更好。此外，论文还开源了代码和使用的数据集。
相关研究

在这个领域中，最近的相关研究包括：《Attention is not Explanation》、《On the Relationship between Self-Attention and Convolutional Layers》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问