- 简介最近的研究表明,视觉-语言模型(VLMs)在视觉推理上的失败往往源于错误的一致性——当语义上不同的图像被CLIP图像编码器模糊地编码成具有高余弦相似度的嵌入时。在这篇论文中,我们展示错误的一致性并不总是主要原因,因为多模态大语言模型(MLLMs)仍然可以从这些嵌入中提取出不同的信息。例如,在What'sUp基准测试中区分左侧和右侧的物体时,左侧/右侧图像对的CLIP图像嵌入的平均余弦相似度超过0.99,而CLIP的表现仅相当于随机猜测;但使用相同CLIP图像编码器的LLaVA-1.5-7B却几乎达到了100%的准确率。我们发现,CLIP图像嵌入中的可提取信息可能被CLIP不足的视觉-语言对齐所掩盖:通过对比目标学习的匹配分数可能无法捕捉到所有多样化的图像-文本对应关系。我们还研究了MMVP基准测试,先前的研究表明,LLaVA-1.5无法区分具有高余弦相似度的图像对。我们观察到,通过一种替代解码算法更多地关注视觉输入,可以带来性能的提升。此外,如果模型能够同时将两张图像作为输入,以强调它们细微的差异,准确率会显著提高。这两个发现都表明,LLaVA-1.5未能充分利用提取的视觉信息。总之,我们的研究结果表明,虽然改进图像编码器可以惠及VLMs,但在应用更好的策略来提取和利用视觉信息方面,即使使用固定的图像编码器,仍有提升的空间。
- 图表
- 解决问题该论文探讨了视觉-语言模型(VLMs)在视觉推理任务中的失败原因,并验证了即使在图像编码器产生高度相似的嵌入时,多模态大语言模型(MLLMs)仍能有效提取和利用视觉信息。这挑战了之前认为图像编码器的错误匹配是主要问题的观点。
- 关键思路论文的关键思路在于揭示了尽管CLIP图像编码器生成的嵌入高度相似,但MLLMs如LLaVA-1.5-7B仍然能够通过更有效的策略从这些嵌入中提取出区分性信息。这表明视觉-语言对齐的不足可能是导致性能不佳的主要原因,而不仅仅是图像编码器的问题。
- 其它亮点论文通过What'sUp和MMVP两个基准测试展示了LLaVA-1.5-7B在高相似度图像对上的显著表现,特别是在区分左右位置的任务上几乎达到100%的准确率。此外,研究还发现通过改进解码算法和同时处理多个图像输入,可以进一步提升模型的性能。这些实验使用了公开的数据集,且提供了开源代码,为后续研究提供了基础。
- 近年来,关于视觉-语言模型的研究非常活跃。相关的工作包括:1.《Improving Visual Reasoning with Enhanced Image Encoders》探讨了通过改进图像编码器来提升模型性能的方法;2.《Multimodal Alignment for Better Visual Reasoning》研究了如何通过更好的视觉-语言对齐来提高模型的表现;3.《Visual Reasoning with Contextual Attention Mechanisms》提出了利用上下文注意力机制来增强视觉推理能力。
沙发等你来抢
去评论
评论
沙发等你来抢