Seeing Is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability
Ziming Liu, Eric Gan & Max Tegmark
[MIT]
受大脑启发的面向机制可解释性的模块化训练
要点:
-
动机:提高神经网络的模块化和可解释性,从而发现神经网络中的有用模块。 -
方法:将神经元嵌入几何空间,通过强化代价函数来使神经网络更具模块化和可解释性。 -
优势:能直接看出的模块化,可补充当前的机制解释策略,如探针、干预或查看所有权重。
受大脑启发的模块化训练(BIMT)方法,通过将神经元嵌入几何空间,通过强化代价函数来使神经网络更具模块化和可解释性,从而发现神经网络中的有用模块。
https://kindxiaoming.github.io/pdfs/BIMT.pdf
https://arxiv.org/abs/2305.08746


内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢