Interpreting the Second-Order Effects of Neurons in CLIP

2024年06月06日
  • 简介
    我们通过自动文本描述来解释CLIP中单个神经元的功能。分析直接效应(即从神经元通过剩余流到输出的流动)或间接效应(总体贡献)无法捕捉神经元在CLIP中的功能。因此,我们提出了“二阶镜头”,分析从神经元通过后续注意力头流向输出的效应。我们发现这些效应非常有选择性:对于每个神经元,效应在不到2%的图像中是显著的。此外,每个效应可以近似为CLIP的文本-图像空间中的单个方向。我们通过将这些方向分解为稀疏的文本表示集来描述神经元。这些集合揭示了多义行为-每个神经元对应于多个,通常不相关的概念(例如船和汽车)。利用这种神经元多义性,我们通过生成与错误类别虚假相关的概念的图像来大规模生产“语义”对抗样本。此外,我们在图像中使用二阶效应进行零样本分割和属性发现。我们的结果表明,可扩展的神经元理解可以用于模型欺骗和引入新的模型能力。
  • 图表
  • 解决问题
    本论文旨在通过分析神经元在CLIP中的作用,自动描述它们的功能,进而用于模型欺骗和引入新的模型能力。该论文的问题是如何理解神经元的功能。
  • 关键思路
    本文提出了“二阶镜头”,分析从神经元通过后续注意力头直接到输出的效果。通过将这些方向分解为稀疏的文本表示集,我们描述了神经元。这些集合揭示了多义行为-每个神经元对应于多个,通常不相关的概念(例如,船和汽车)。利用这种多义性,我们大量生产“语义”对抗性示例,通过生成与不正确类别错误相关的概念的图像。此外,我们在图像中使用二阶效应进行零样本分割和属性发现。我们的结果表明,可扩展的神经元理解可用于模型欺骗和引入新的模型能力。
  • 其它亮点
    本文提出了“二阶镜头”分析方法,并发现每个神经元的效果对于<2%的图像是显著的。每个效果可以近似为CLIP文本-图像空间中的单个方向。通过神经元的多义性,我们成功地生产了大量的“语义”对抗性示例。在实验中,我们使用了多个数据集,并使用了开源代码。此外,我们的方法在零样本分割和属性发现方面也表现出色。
  • 相关研究
    与本文相关的研究包括对神经元功能的理解和对CLIP模型的研究。最近的相关研究包括“Analyzing Hidden Representations in End-to-End Automatic Speech Recognition Systems”和“Understanding Neural Networks through Deep Visualization”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论