Interpreting Attention Layer Outputs with Sparse Autoencoders

简介

本文致力于机理可解释性中的一个关键问题：将模型激活分解为可解释的组件。稀疏自编码器（SAE）是一种流行的方法，用于将训练的transformer的内部激活分解为稀疏的可解释特征，并已应用于MLP层和残差流。本文在注意力层输出上训练SAE，并展示SAE在此处也能找到稀疏的可解释分解。我们在几个模型家族和高达2B参数的transformer上进行了演示。我们对注意力层计算的特征进行了定性研究，并发现了多个家族：长距离上下文、短距离上下文和归纳特征。我们对GPT-2 Small中每个头的作用进行了定性研究，并估计至少90%的头是多义的，即具有多个不相关的角色。此外，我们展示了稀疏自编码器是一个有用的工具，使研究人员能够比先前的工作更详细地解释模型行为。例如，我们探索了为什么模型有许多看似冗余的归纳头的谜团，使用SAE来推动假设，即有些是长前缀，而有些是短前缀，并通过更严格的分析进行确认。我们使用我们的SAE来分析间接对象识别电路（Wang等人）执行的计算，验证SAE发现因果有意义的中间变量，加深我们对电路语义的理解。我们开源了训练的SAE和一个工具，通过Attention Output SAE的视角来探索任意提示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图通过使用Sparse Autoencoders（SAEs）方法，对注意力层输出进行训练，从而找到一种稀疏且可解释的特征分解方式。同时，研究注意力层的特征计算，并探究模型中众多感觉冗余的感知头的作用。
关键思路

本文使用SAEs方法对注意力层输出进行训练，从而找到一种稀疏且可解释的特征分解方式，并对注意力层的特征计算进行研究，探究模型中众多感觉冗余的感知头的作用。
其它亮点

本文通过SAEs方法找到了一种稀疏且可解释的特征分解方式，研究了注意力层的特征计算，探究了模型中众多感觉冗余的感知头的作用。实验使用了多个模型家族和高达2B参数的transformers，开源了训练好的SAEs和一个探索任意提示的工具。
相关研究

最近的相关研究包括使用不同的方法对模型的可解释性进行研究，如LIME、SHAP和Integrated Gradients等。

Interpreting Attention Layer Outputs with Sparse Autoencoders

提问交流

提问交流