Interpretability in Parameter Space: Minimizing Mechanistic Description Length with Attribution-based Parameter Decomposition

Dan Braun ,
Lucius Bushnaq ,
Stefan Heimersheim ,
Jake Mendel ,
Lee Sharkey
2025年01月24日
  • 简介
    机制可解释性旨在理解神经网络所学到的内部机制。尽管在实现这一目标方面已取得了一些进展,但如何最佳地将神经网络参数分解为机制组件仍然不清楚。我们引入了基于归因的参数分解(APD),这是一种直接将神经网络的参数分解为组件的方法,这些组件(i)忠实于原始网络的参数,(ii)处理任何输入所需的组件数量最少,且(iii)尽可能简单。因此,我们的方法优化了对网络机制的最简描述。我们通过在多个玩具实验设置中成功识别真实机制来证明APD的有效性:从叠加中恢复特征;分离压缩计算;以及识别跨层分布式表示。虽然将APD扩展到非玩具模型仍面临挑战,但我们的结果为解决机制可解释性中的几个开放问题提供了思路,包括在叠加中识别最小电路,为“特征”提供概念基础,以及提供一种与架构无关的神经网络分解框架。
  • 图表
  • 解决问题
    该论文试图解决神经网络内部机制理解的问题,特别是如何将神经网络的参数分解为机械组件。这是为了更好地理解神经网络如何处理信息,并且这是一个当前领域中尚未完全解决的重要问题。
  • 关键思路
    论文提出了一种名为基于归因的参数分解(APD)的新方法,该方法直接将神经网络的参数分解为几个关键组件,这些组件忠实于原始网络的参数,处理输入时所需的组件数量最少,并且尽可能简单。这一思路通过优化最短描述长度来捕捉网络机制,与现有研究相比,提供了更简洁和有效的参数分解方法。
  • 其它亮点
    论文展示了APD在多个玩具实验设置中的有效性,包括从叠加中恢复特征、分离压缩计算以及识别跨层分布表示。此外,作者指出虽然将APD扩展到非玩具模型仍面临挑战,但其结果为解决机械解释性中的几个开放问题提供了线索。值得注意的是,该研究提供了一个架构无关的框架,这可能对未来的神经网络分解工作产生重要影响。论文没有提及是否开源代码或具体使用的数据集,但强调了未来研究的方向。
  • 相关研究
    近期在这个领域的相关研究包括: 1. 'Towards Interpretable Deep Learning through Mechanistic Interpretability' - 探讨了深度学习模型的可解释性。 2. 'Understanding Neural Networks Through Layer-Wise Relevance Propagation' - 研究了通过逐层相关性传播来理解神经网络的方法。 3. 'Decomposing Feature Representations in Neural Networks' - 深入探讨了神经网络中特征表示的分解。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论