Dense SAE Latents Are Features, Not Bugs

2025年06月18日
  • 简介
    稀疏自编码器(SAEs)通过施加稀疏性约束,旨在从语言模型中提取可解释的特征。理想情况下,训练一个 SAE 会得到既稀疏又语义上有意义的潜在表示。然而,许多 SAE 的潜在表示却频繁激活(即表现为“密集”),这引发了人们对它们可能是训练过程中的不良副产物的担忧。在本研究中,我们系统地探讨了密集潜在表示的几何特性、功能和起源,并表明它们不仅普遍存在,而且常常反映了有意义的模型表示。 首先,我们展示了密集潜在表示倾向于形成反向对(antipodal pairs),用于重建残差流中的特定方向,并且删除其子空间可以抑制重新训练的 SAE 中新密集特征的出现——这表明高密度特征是残差空间的固有属性。接着,我们提出了一种密集潜在表示的分类法,识别出与位置追踪、上下文绑定、熵调节、字母特定输出信号、词性以及主成分重建相关的类别。 最后,我们分析了这些特征在模型各层中的演化过程,揭示了一个从早期层的结构化特征,到中间层的语义特征,再到最后一层的输出导向信号的转变。我们的研究结果表明,密集潜在表示在语言模型的计算中具有功能性作用,不应被视为训练噪声而被忽视。
  • 图表
  • 解决问题
    该论文试图解决稀疏自编码器(SAE)中密集潜变量(dense latents)的功能和起源问题。具体来说,研究者关注的是这些频繁激活的潜变量是否仅仅是训练过程中的副产物,还是具有实际功能的模型表示。
  • 关键思路
    论文的关键思路是通过系统性分析密集潜变量的几何结构、功能及其在语言模型中的作用,揭示它们并非仅仅是噪声,而是反映了有意义的模型表示。作者进一步提出了一种分类方法,将密集潜变量分为与位置跟踪、上下文绑定、熵调节等功能相关的类别,并展示了它们在不同模型层中的演化规律。
  • 其它亮点
    1. 论文通过实验表明,密集潜变量形成了反向对(antipodal pairs),用于重建残差流中的特定方向。 2. 提出了一个详细的分类框架,识别出多种类型的密集潜变量,包括结构化特征、语义特征和输出信号。 3. 研究了这些特征在模型不同层中的分布,发现从早期的结构性特征到中期的语义特征再到后期的输出导向信号的转变。 4. 没有提到具体使用的数据集或开源代码,但实验设计严谨,为后续研究提供了明确的方向,例如探索如何优化密集潜变量的设计以增强模型性能。
  • 相关研究
    近期相关研究包括: 1. 'Interpreting the Latent Space of Pretrained Language Models' - 探讨预训练语言模型中潜在空间的可解释性。 2. 'Dissecting Dense Representations in Transformers' - 分析Transformer模型中密集表示的作用。 3. 'Sparse and Dense Representations in Neural Networks' - 对比稀疏与密集表示在神经网络中的优劣。 4. 'The Geometry of Representations in Neural Networks' - 研究神经网络表示的几何特性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论