Interpreting the linear structure of vision-language model embedding spaces

向作者提问

NEW

简介

视觉-语言模型将图像和文本编码到一个联合空间中，并最小化对应的图像和文本对之间的距离。在这个联合空间中，语言和图像的组织方式是怎样的？模型又是如何编码意义和模态信息的呢？为了研究这些问题，我们训练并发布了针对四个视觉-语言模型（CLIP、SigLIP、SigLIP2 和 AIMv2）嵌入空间的稀疏自编码器（SAEs）。稀疏自编码器通过学习得到的方向（即“概念”）以稀疏的线性组合形式来近似模型的嵌入。我们发现，与其他线性特征学习方法相比，SAEs 在重建真实嵌入方面表现更好，同时也能保持最高的稀疏性。通过使用不同的随机种子或不同的训练数据重新训练 SAEs，我们得到了两个发现：首先，SAEs 所捕捉到的那些稀有且具体的概念在不同训练中可能会发生显著变化；但另一方面，我们发现那些频繁激活的概念在不同训练运行中却表现出显著的稳定性。有趣的是，尽管大多数概念主要针对某一特定模态激活，但我们发现它们并非仅仅是在编码模态本身。许多概念方向几乎与定义模态的子空间正交，而且这些概念方向本身并不能很好地作为模态分类器，这表明它们编码的是跨模态的语义信息。为了量化这种“桥梁式”的行为，我们引入了“桥梁评分”（Bridge Score）这一指标，用于识别那些在对齐的图文输入中共同激活、并且在共享空间中几何上也对齐的概念对。这一分析揭示出，即使是单模态的概念也可以协同工作，支持跨模态的整合。我们为所有模型发布了 SAEs 的交互式演示，供研究人员探索概念空间的结构。总体而言，我们的研究发现揭示了视觉-语言模型嵌入空间中存在的稀疏线性结构：这一结构受到模态的影响，同时又通过潜在的“桥梁”连接在一起，为多模态意义的构建机制提供了新的洞见。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

这篇论文试图解决视觉-语言模型（VLMs）中图像和文本如何在联合嵌入空间中组织和编码意义的问题。论文关注这些模型如何在多模态空间中捕捉语义和模态信息，并探索其中的稀疏结构。这个问题在多模态学习中是重要的，但对稀疏线性结构的系统性研究较少。
关键思路

论文提出使用稀疏自编码器（SAEs）来学习VLM嵌入空间中的可解释方向（称为“概念”），并通过这些方向分析模态信息和语义信息的组织方式。SAEs通过稀疏线性组合近似原始嵌入，从而揭示空间中的关键语义方向。这种稀疏编码视角为理解VLM提供了新思路。
其它亮点

1. SAEs在重建原始嵌入方面优于其他线性特征学习方法，同时保持高度稀疏性。 2. 实验表明，频繁激活的概念在不同训练种子和数据分布下具有稳定性，而稀有概念则变化较大。 3. 引入“Bridge Score”来量化跨模态概念的协同激活和几何对齐，揭示了即使单模态概念也能支持跨模态整合。 4. 作者开源了所有模型的交互式演示工具，便于研究者探索概念空间。 5. 论文揭示了VLM嵌入空间中存在稀疏线性结构，这种结构既受模态影响，又通过潜在“桥梁”连接跨模态语义。
相关研究

1. CLIP: Connecting Vision and Language through Alignment 2. Sparse Autoencoders for Interpreting Vision Transformer Representations 3. Interpreting Multimodal Models through Concept-based Explanations 4. Geometric Probing of Multimodal Embedding Spaces 5. Modality Interaction in Vision-Language Models: A Survey

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问