MIT｜受大脑启发的面向机制的模块化训练，可直接看出的模块化

ML

白羽中 2023-05-18 14:36 分享

以下文章来源于space.mit.edu

Seeing Is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability

Ziming Liu, Eric Gan & Max Tegmark

[MIT]

受大脑启发的面向机制可解释性的模块化训练

要点:

动机：提高神经网络的模块化和可解释性，从而发现神经网络中的有用模块。
方法：将神经元嵌入几何空间，通过强化代价函数来使神经网络更具模块化和可解释性。
优势：能直接看出的模块化，可补充当前的机制解释策略，如探针、干预或查看所有权重。

受大脑启发的模块化训练(BIMT)方法，通过将神经元嵌入几何空间，通过强化代价函数来使神经网络更具模块化和可解释性，从而发现神经网络中的有用模块。

https://kindxiaoming.github.io/pdfs/BIMT.pdf

https://arxiv.org/abs/2305.08746

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论