- 简介本文致力于机理可解释性中的一个关键问题:将模型激活分解为可解释的组件。稀疏自编码器(SAE)是一种流行的方法,用于将训练的transformer的内部激活分解为稀疏的可解释特征,并已应用于MLP层和残差流。本文在注意力层输出上训练SAE,并展示SAE在此处也能找到稀疏的可解释分解。我们在几个模型家族和高达2B参数的transformer上进行了演示。 我们对注意力层计算的特征进行了定性研究,并发现了多个家族:长距离上下文、短距离上下文和归纳特征。我们对GPT-2 Small中每个头的作用进行了定性研究,并估计至少90%的头是多义的,即具有多个不相关的角色。 此外,我们展示了稀疏自编码器是一个有用的工具,使研究人员能够比先前的工作更详细地解释模型行为。例如,我们探索了为什么模型有许多看似冗余的归纳头的谜团,使用SAE来推动假设,即有些是长前缀,而有些是短前缀,并通过更严格的分析进行确认。我们使用我们的SAE来分析间接对象识别电路(Wang等人)执行的计算,验证SAE发现因果有意义的中间变量,加深我们对电路语义的理解。我们开源了训练的SAE和一个工具,通过Attention Output SAE的视角来探索任意提示。
-
- 图表
- 解决问题本文试图通过使用Sparse Autoencoders(SAEs)方法,对注意力层输出进行训练,从而找到一种稀疏且可解释的特征分解方式。同时,研究注意力层的特征计算,并探究模型中众多感觉冗余的感知头的作用。
- 关键思路本文使用SAEs方法对注意力层输出进行训练,从而找到一种稀疏且可解释的特征分解方式,并对注意力层的特征计算进行研究,探究模型中众多感觉冗余的感知头的作用。
- 其它亮点本文通过SAEs方法找到了一种稀疏且可解释的特征分解方式,研究了注意力层的特征计算,探究了模型中众多感觉冗余的感知头的作用。实验使用了多个模型家族和高达2B参数的transformers,开源了训练好的SAEs和一个探索任意提示的工具。
- 最近的相关研究包括使用不同的方法对模型的可解释性进行研究,如LIME、SHAP和Integrated Gradients等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流