Sparse Autoencoders Can Interpret Randomly Initialized Transformers

Thomas Heap ,
Tim Lawson ,
Lucy Farnik ,
Laurence Aitchison
2025年01月29日
  • 简介
    稀疏自编码器(SAEs)是一种越来越受欢迎的技术,用于解释变压器的内部表示。在本文中,我们将SAEs应用于“解释”随机变压器,即参数是从高斯分布中独立同分布采样而不是通过文本数据训练得到的变压器。我们发现,随机变压器和训练过的变压器产生的SAE潜在变量同样具有可解释性,并且我们使用一个开源的自动可解释性管道定量地确认了这一发现。此外,我们发现SAE的质量指标在随机变压器和训练过的变压器之间大致相似。我们发现这些结果在不同模型大小和层中都成立。我们讨论了这项工作在机制可解释性的背景下为SAEs和自动可解释性提出的一些有趣的问题。
  • 图表
  • 解决问题
    该论文试图探究稀疏自编码器(SAEs)在解释随机初始化的变压器模型(即未经过训练,参数从高斯分布中独立同分布采样的变压器)中的表现,并验证这些随机变压器与经过文本数据训练的变压器在可解释性上的相似性。这是一个新颖的问题,因为通常研究更关注于经过训练的模型,而较少探讨随机初始化模型的表现。
  • 关键思路
    关键思路是应用SAEs来解释随机变压器和训练过的变压器的内部表示,并通过定量分析比较两者的解释结果。研究发现,无论是随机还是训练过的变压器,在使用SAEs进行解释时,其潜在变量的可解释性和质量度量都表现出显著的相似性。这表明SAEs可能捕捉到了变压器架构本身的一些固有特性,而不是仅仅依赖于训练数据。
  • 其它亮点
    论文的亮点包括:1) 发现随机和训练过的变压器在SAE解释下的相似性;2) 使用开源的自动解释管道进行量化确认;3) 结果适用于不同规模和层次的模型;4) 提出了关于SAE和自动解释在机制解释领域中的进一步问题。此外,实验设计严谨,涵盖了多种模型大小和层次,并且提供了开源代码以供复现。
  • 相关研究
    最近在这个领域的相关研究包括:1)《Mechanistic Interpretability of Transformers: An Initial Investigation》探讨了变压器的机械解释;2)《Interpreting the Interpretability of Transformers》研究了变压器解释性的不同方法;3)《Probing Neural Network Comprehension of Natural Language》通过探针技术评估神经网络对自然语言的理解。这些研究共同推动了对深度学习模型内部运作的理解。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论