Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP

2024年06月03日
  • 简介
    最近的研究探讨了CLIP-ViT模型的各个组件如何通过利用CLIP的共享图像-文本表示空间来为最终表示做出贡献。这些组件,例如注意力头和MLP,已被证明可以捕捉到不同的图像特征,如形状、颜色或纹理。然而,理解这些组件在任意视觉变换器(ViTs)中的作用是具有挑战性的。为此,我们引入了一个通用框架,可以识别ViTs中各种组件的作用,超越了CLIP。具体而言,我们(a)自动将最终表示分解为来自不同模型组件的贡献,并(b)通过线性映射这些贡献到CLIP空间来通过文本进行解释。此外,我们引入了一种新的评分函数,以特定特征的重要性来排名组件。将我们的框架应用于各种ViT变体(例如DeiT、DINO、DINOv2、Swin、MaxViT),我们可以了解不同组件在特定图像特征方面的作用。这些见解有助于应用,如使用文本描述或参考图像进行图像检索,可视化令牌重要性热图以及减轻虚假相关性。
  • 图表
  • 解决问题
    本论文的问题是如何理解视觉转换器(ViTs)中不同组件的作用,以及如何将它们与文本相关联,以便更好地理解它们的作用。
  • 关键思路
    本论文提出了一种通用框架,通过自动将最终表示分解为来自不同模型组件的贡献,并将这些贡献线性映射到CLIP空间以通过文本进行解释,来识别ViTs中各种组件的作用。
  • 其它亮点
    本文的实验使用了多个ViT变体,如DeiT、DINO、DINOv2、Swin、MaxViT,并通过文本描述或参考图像进行图像检索,可视化令牌重要性热图,并减少了虚假相关性。本文还提出了一种新的评分函数,用于根据特定特征的重要性对组件进行排序。
  • 相关研究
    最近的相关研究包括探索CLIP-ViT模型中各个组件对最终表示的贡献,以及使用CLIP共享的图像文本表示空间捕获不同的图像特征。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论