Transcoders Find Interpretable LLM Feature Circuits

2024年06月17日
  • 简介
    机制解释性的一个重要目标是电路分析:寻找与特定行为或能力相对应的模型的稀疏子图。然而,MLP子层使得对基于Transformer的语言模型进行细粒度电路分析变得困难。特别是,可解释的特征——例如由稀疏自编码器(SAE)发现的特征——通常是极多神经元的线性组合,每个神经元都有自己的非线性来解释。在这种情况下进行电路分析要么得到难以处理的大电路,要么无法区分局部和全局行为。为了解决这个问题,我们探索了转码器,它们旨在用更宽、更稀疏的MLP层忠实地逼近密集激活的MLP层。我们成功地训练了120M、410M和1.4B参数的语言模型的转码器,并发现它们在稀疏性、忠实度和人类可解释性方面至少与SAE相当。然后,我们介绍了一种新方法,利用转码器通过MLP子层执行基于权重的电路分析。得到的电路被整齐地分解为与输入相关和与输入无关的项。最后,我们将转码器应用于在模型中逆向工程未知电路,并获得了有关GPT2-small中大于电路的新见解。我们的结果表明,转码器可以有效地将涉及MLP的模型计算分解为可解释的电路。代码可在https://github.com/jacobdunefsky/transcoder_circuits上获得。
  • 图表
  • 解决问题
    本论文旨在解决transformer-based语言模型中的机制可解释性问题,特别是在MLP sublayers中进行电路分析的困难。
  • 关键思路
    通过使用transcoders,将密集激活的MLP层转换为更宽的、稀疏激活的MLP层,从而实现对模型计算进行解释性电路分析。
  • 其它亮点
    论文成功地训练了具有120M、410M和1.4B参数的语言模型的transcoders,并发现它们在稀疏性、可信度和人类可解释性方面至少与SAEs表现相当。论文还介绍了一种使用transcoders进行基于权重的电路分析的新方法,并将其应用于反向工程模型中的未知电路,从而获得了有关GPT2-small中大于电路的新见解。
  • 相关研究
    最近的相关研究包括使用SAEs进行电路分析的工作,以及使用其他方法进行模型可解释性分析的工作,如LIME和SHAP。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论