- 简介最近的研究表明,Transformer可以通过内部执行称为电路的计算图解决上下文推理任务。电路通常使用注意力来逻辑匹配来自表示子空间的信息,例如使用序列中的位置来识别前一个标记。在本文中,我们认为语义子空间是任何独立的潜在表示子空间,可以完全确定注意力分布。我们发现,现有最先进的Transformer中使用的预归一化层(Pre-Norm)违反了这种能力,除非模型学习到正交球体的严格表示结构。这是因为它会通过它们共同的归一化因子干扰线性子空间。理论上,我们通过将这种干扰建模为查询/键/值向量的$L_2$范数上的随机噪声来分析电路的稳定性,预测当稀疏注意力转移到不同的标记时,电路会发生崩溃现象。实证方面,我们调查了针对数学加法训练的实际模型的灵敏度,观察到当范数人工扰动不超过10%时,电路崩溃率为1%。我们将Pre-Norm与QKV-Norm进行对比,后者将归一化放置在注意力头的线性运算符之后。理论上,这放宽了表示约束。实际上,我们观察到了可比的分布内表现,但是分布外表现更差。
-
- 图表
- 解决问题论文旨在解决预训练transformers中normalization layer的位置对模型性能和稳定性的影响问题,同时验证QKV-Norm相比Pre-Norm的优势是否存在。
- 关键思路Pre-Norm的normalization layer的位置会导致不同的线性子空间之间互相干扰,从而影响模型的性能和稳定性。而QKV-Norm通过将normalization layer放在attention head的线性操作之后,可以缓解这种影响。
- 其它亮点论文从理论和实验两个方面阐述了Pre-Norm和QKV-Norm的优劣。在理论上,通过模拟不同的噪声情况,预测了Pre-Norm会导致circuit collapse的现象。在实验上,通过对数学加法模型的实验,发现Pre-Norm和QKV-Norm在分布内表现相当,但QKV-Norm在分布外的表现更好。此外,论文还开源了代码和使用的数据集。
- 在这个领域中,最近的相关研究包括:《Attention is not Explanation》、《On the Relationship between Self-Attention and Convolutional Layers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流