- 简介我们在大型语言模型(LLMs)中观察到一个经验现象——很少有激活值比其他值显著地大(例如,大100,000倍)。我们称之为大量激活。首先,我们展示了大量激活在各种LLMs中的普遍存在,并描述了它们的位置。其次,我们发现它们的值基本保持不变,而且在LLMs中起着不可或缺的偏置项的作用。第三,这些大量激活导致注意概率集中到相应的标记上,并进一步成为自我注意输出中的隐式偏置项。最后,我们还研究了视觉Transformer中的大量激活。
- 图表
- 解决问题论文旨在研究大型语言模型中的巨大激活现象,探究其位置、值的稳定性、作为偏置项的作用以及对注意力概率和自注意力输出的影响。
- 关键思路研究发现大型语言模型中存在巨大激活现象,这些激活值通常不随输入而变化,且作为不可或缺的偏置项存在。这些巨大激活现象导致注意力概率集中于相应的标记,进一步影响自注意力输出。
- 其它亮点论文对多个大型语言模型和视觉变压器进行了实验研究,发现巨大激活现象普遍存在,且对模型的性能有重要影响。研究还探究了巨大激活现象的机制,提出了一种新的视角来理解模型中的偏置项。论文开源了相关代码和数据集。
- 最近的相关研究包括《On the Relationship between Self-Attention and Convolutional Layers》、《Understanding the Difficulty of Training Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢