What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Noise-free Text-Image Corruption and Evaluation

2024年06月24日
  • 简介
    视觉语言模型(VLM)因其能够整合视觉和文本输入以执行复杂任务而备受关注。尽管它们很成功,但这些模型的内部决策过程仍然不透明,这在高风险应用中带来了挑战。为了解决这个问题,我们介绍了NOTICE,这是第一个用于VLM机械解释性的无噪声文本-图像损坏和评估流程。NOTICE采用了语义最小对(SMP)框架进行图像损坏和对称令牌替换(STR)进行文本损坏。这种方法可以为两种模态提供语义上有意义的因果中介分析,为像BLIP这样的模型提供了强大的分析多模态整合的方法。我们在SVO-Probes、MIT-States和面部表情识别数据集上的实验揭示了关于VLM决策过程的重要见解,识别了中间层交叉注意力头的重要作用。此外,我们还发现了一组“通用交叉注意力头”,它们在任务和模态之间始终发挥作用,每个头都执行不同的功能,例如隐式图像分割、对象抑制和离群值抑制。这项工作为更透明和可解释的多模态系统铺平了道路。
  • 图表
  • 解决问题
    论文旨在解决视觉语言模型(VLMs)的内部决策过程不透明的问题,提出了一种噪声-free的文本图像损坏和评估管道(NOTICE)来实现机械解释性。
  • 关键思路
    NOTICE采用了语义最小对(SMP)框架进行图像损坏和对称令牌替换(STR)进行文本处理,从而实现了有意义的因果中介分析。
  • 其它亮点
    论文在SVO-Probes、MIT-States和Facial Expression Recognition数据集上进行了实验,揭示了中间层交叉注意力头的重要作用,发现了一组“通用交叉注意力头”,每个头都执行不同的功能,如隐式图像分割、对象抑制和异常值抑制。
  • 相关研究
    近期相关研究包括《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)》、《Visualizing and Understanding Transformers for Biological Language Processing》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论