- 简介到目前为止,在深度视觉模型中实现人类可解释计算的网络子组件的大多数发现都涉及对单个单元的仔细研究和大量的人力投入。我们探索了一种可扩展的方法,用于提取视觉模型计算图中支撑特定视觉概念识别的子图。我们引入了一种新方法来识别这些子图:使用几个示例来指定视觉概念,然后跟踪神经元激活在层之间的相互依赖关系,或者它们的功能连接。我们发现,我们的方法提取的电路会影响模型输出,而且编辑这些电路可以保护大型预训练模型免受对抗性攻击。
- 图表
- 解决问题论文旨在探索可扩展的方法,用于提取视觉模型计算图中实现人类可解释计算的网络子组件,以及编辑这些电路以防御对抗攻击。
- 关键思路论文提出了一种新方法,通过使用几个示例指定视觉概念,然后跟踪神经元在层之间的相互依赖性或它们的功能连接来识别这些子图。
- 其它亮点论文发现,这种方法提取的电路会对模型输出产生因果影响,并且编辑这些电路可以防御对抗攻击。实验结果表明,这种方法是可扩展的,并且可以应用于大型预训练模型。论文还开源了代码。
- 最近在这个领域中,还有一些相关的研究,例如:《Interpreting CNNs via Decision Trees》、《Visualizing and Understanding Convolutional Networks》、《Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps》等。
沙发等你来抢
去评论
评论
沙发等你来抢