- 简介视觉投影仪是跨模态对齐的关键组件,用于连接视觉和语言模态。然而,衡量投影仪在视觉-语言对齐方面的有效性仍未得到充分探索,目前只能从MLLM在下游任务上的表现进行推断。因此,本研究通过解释MLLM中视觉-语言语义流的方式来研究投影仪模块。具体而言,我们追溯了从生成的语言标记到原始视觉编码器补丁以及投影仪产生的中间输出的语义相关性流。我们的发现揭示了压缩投影仪(例如QFormer)将抽象视觉补丁转化为一组有限的语义概念(例如对象或属性),从而产生“双重抽象”现象。这涉及到投影仪通过参考预定义的查询标记进行第一次视觉语义抽象,以及LLM根据文本指令进行第二次抽取。这种双重抽象在训练中效率低下,并将导致累积的视觉语义缺陷。为了解决这个问题,我们提出了“将压缩从抽象中分离出来(DeCo)”的关键见解,即通过投影仪在补丁级别上压缩视觉标记数量,并允许LLM完全处理视觉语义抽象。因此,我们采用简单的压缩器,即2D自适应池化,以无参数的方式对视觉补丁进行下采样。实证评估表明,DeCo在性能和效率方面均优于传统的压缩投影仪。在MLLM基准测试、视觉定位和开放式VQA任务中,DeCo在更少的可训练参数和更快的收敛速度下实现了0.9%、7.1%和2.9%的性能提升。
-
- 图表
- 解决问题研究MLLMs中的视觉-语言对齐问题,特别是探究视觉投影器模块的有效性,并提出一种新的解决方案。
- 关键思路提出Decouple Compression from Abstraction (DeCo)的思路,即在视觉编码器的patch层面上使用简单的压缩器,如2D自适应池化,实现对视觉信息的压缩,然后将视觉语义抽象的处理完全交给LLM。
- 其它亮点实验结果表明,DeCo在性能和效率方面都优于传统的压缩式投影器,而且具有更少的可训练参数和更快的收敛速度。
- 相关研究包括:1. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks;2. LXMERT: Learning Cross-Modality Encoder Representations from Transformers;3. UNITER: Learning UNiversal Image-TExt Representations。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流