Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

简介

视觉能力足以支持语言吗？最近多模态模型的进展主要来自于大型语言模型(LLMs)强大的推理能力。然而，视觉组件通常只依赖于实例级对比语言-图像预训练(CLIP)。我们的研究揭示了最近多模态LLMs的视觉能力仍然存在系统性缺陷。为了理解这些错误的根源，我们探索了CLIP的视觉嵌入空间和仅视觉自监督学习之间的差距。我们确定了“CLIP盲目对待的配对”——CLIP认为相似的图像，尽管它们在视觉上有明显的差异。我们利用这些配对构建了多模态视觉模式(MMVP)基准。MMVP揭示了最先进的系统，包括GPT-4V，在九个基本视觉模式上面临的直接问题，经常提供错误答案和虚构的解释。我们进一步评估了各种基于CLIP的视觉-语言模型，并发现挑战CLIP模型的视觉模式与多模态LLMs有问题的模式之间存在显著的相关性。作为解决这些问题的初步努力，我们提出了一种混合特征(MoF)方法，证明将视觉自监督学习特征与MLLMs集成可以显著增强它们的视觉基础能力。总之，我们的研究表明，视觉表示学习仍然是一个开放的挑战，准确的视觉基础对于未来成功的多模态系统至关重要。
图表
解决问题

论文试图探究现有多模态语言模型（MLLMs）的视觉能力存在的系统性缺陷，并提出一种新的方法来提高这些模型的视觉基础能力。
关键思路

论文发现了CLIP视觉嵌入空间和仅使用视觉自监督学习的视觉嵌入空间之间的差距，并提出了一种混合特征（MoF）的方法，将视觉自监督学习特征与MLLMs集成，以显着提高它们的视觉基础能力。
其它亮点

该论文提出了Multimodal Visual Patterns（MMVP）基准测试，揭示了当前最先进的系统在九种基本视觉模式下的系统性缺陷，并提出了一种新的方法MoF来解决这些问题。论文还提出了一些未来研究方向，例如如何更好地评估多模态模型的视觉能力，以及如何将自监督学习与对话建模相结合。
相关研究

最近的相关研究包括：VisualBERT，ViLBERT，LXMERT，UNITER等多模态语言模型，以及与视觉表示学习相关的研究，如SimCLR，MoCo等。

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

评论