Seeing Is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability

Ziming Liu, Eric Gan & Max Tegmark

[MIT]

受大脑启发的面向机制可解释性的模块化训练

要点:

  • 动机:提高神经网络的模块化和可解释性,从而发现神经网络中的有用模块。
  • 方法:将神经元嵌入几何空间,通过强化代价函数来使神经网络更具模块化和可解释性。
  • 优势:能直接看出的模块化,可补充当前的机制解释策略,如探针、干预或查看所有权重。

受大脑启发的模块化训练(BIMT)方法,通过将神经元嵌入几何空间,通过强化代价函数来使神经网络更具模块化和可解释性,从而发现神经网络中的有用模块。

https://kindxiaoming.github.io/pdfs/BIMT.pdf 

https://arxiv.org/abs/2305.08746 


图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除