- 简介视觉能力足以支持语言吗?最近多模态模型的进展主要来自于大型语言模型(LLMs)强大的推理能力。然而,视觉组件通常只依赖于实例级对比语言-图像预训练(CLIP)。我们的研究揭示了最近多模态LLMs的视觉能力仍然存在系统性缺陷。为了理解这些错误的根源,我们探索了CLIP的视觉嵌入空间和仅视觉自监督学习之间的差距。我们确定了“CLIP盲目对待的配对”——CLIP认为相似的图像,尽管它们在视觉上有明显的差异。我们利用这些配对构建了多模态视觉模式(MMVP)基准。MMVP揭示了最先进的系统,包括GPT-4V,在九个基本视觉模式上面临的直接问题,经常提供错误答案和虚构的解释。我们进一步评估了各种基于CLIP的视觉-语言模型,并发现挑战CLIP模型的视觉模式与多模态LLMs有问题的模式之间存在显著的相关性。作为解决这些问题的初步努力,我们提出了一种混合特征(MoF)方法,证明将视觉自监督学习特征与MLLMs集成可以显著增强它们的视觉基础能力。总之,我们的研究表明,视觉表示学习仍然是一个开放的挑战,准确的视觉基础对于未来成功的多模态系统至关重要。
- 图表
- 解决问题论文试图探究现有多模态语言模型(MLLMs)的视觉能力存在的系统性缺陷,并提出一种新的方法来提高这些模型的视觉基础能力。
- 关键思路论文发现了CLIP视觉嵌入空间和仅使用视觉自监督学习的视觉嵌入空间之间的差距,并提出了一种混合特征(MoF)的方法,将视觉自监督学习特征与MLLMs集成,以显着提高它们的视觉基础能力。
- 其它亮点该论文提出了Multimodal Visual Patterns(MMVP)基准测试,揭示了当前最先进的系统在九种基本视觉模式下的系统性缺陷,并提出了一种新的方法MoF来解决这些问题。论文还提出了一些未来研究方向,例如如何更好地评估多模态模型的视觉能力,以及如何将自监督学习与对话建模相结合。
- 最近的相关研究包括:VisualBERT,ViLBERT,LXMERT,UNITER等多模态语言模型,以及与视觉表示学习相关的研究,如SimCLR,MoCo等。
沙发等你来抢
去评论
评论
沙发等你来抢