Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

2024年01月11日
  • 简介
    视觉能力足以支持语言吗?最近多模态模型的进展主要来自于大型语言模型(LLMs)强大的推理能力。然而,视觉组件通常只依赖于实例级对比语言-图像预训练(CLIP)。我们的研究揭示了最近多模态LLMs的视觉能力仍然存在系统性缺陷。为了理解这些错误的根源,我们探索了CLIP的视觉嵌入空间和仅视觉自监督学习之间的差距。我们确定了“CLIP盲目对待的配对”——CLIP认为相似的图像,尽管它们在视觉上有明显的差异。我们利用这些配对构建了多模态视觉模式(MMVP)基准。MMVP揭示了最先进的系统,包括GPT-4V,在九个基本视觉模式上面临的直接问题,经常提供错误答案和虚构的解释。我们进一步评估了各种基于CLIP的视觉-语言模型,并发现挑战CLIP模型的视觉模式与多模态LLMs有问题的模式之间存在显著的相关性。作为解决这些问题的初步努力,我们提出了一种混合特征(MoF)方法,证明将视觉自监督学习特征与MLLMs集成可以显著增强它们的视觉基础能力。总之,我们的研究表明,视觉表示学习仍然是一个开放的挑战,准确的视觉基础对于未来成功的多模态系统至关重要。
  • 图表
  • 解决问题
    论文试图探究现有多模态语言模型(MLLMs)的视觉能力存在的系统性缺陷,并提出一种新的方法来提高这些模型的视觉基础能力。
  • 关键思路
    论文发现了CLIP视觉嵌入空间和仅使用视觉自监督学习的视觉嵌入空间之间的差距,并提出了一种混合特征(MoF)的方法,将视觉自监督学习特征与MLLMs集成,以显着提高它们的视觉基础能力。
  • 其它亮点
    该论文提出了Multimodal Visual Patterns(MMVP)基准测试,揭示了当前最先进的系统在九种基本视觉模式下的系统性缺陷,并提出了一种新的方法MoF来解决这些问题。论文还提出了一些未来研究方向,例如如何更好地评估多模态模型的视觉能力,以及如何将自监督学习与对话建模相结合。
  • 相关研究
    最近的相关研究包括:VisualBERT,ViLBERT,LXMERT,UNITER等多模态语言模型,以及与视觉表示学习相关的研究,如SimCLR,MoCo等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论