IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models

2024年03月23日
  • 简介
    VLM的出现使研究人员能够使用自然语言来研究神经网络的视觉理解能力,不仅可以进行物体分类和检测,还能进行视觉理解和常识推理。这自然引出了一个问题:当图像本身不合理时,VLM如何响应?为此,我们提出了IllusionVQA:一个包含各种具有挑战性的视错觉和难以解释的场景的多样化数据集,用于测试VLM在两个不同的多选VQA任务中的能力——理解和软定位。表现最佳的VLM GPT4V在理解任务上实现了62.99%的准确率(4-shot),在定位任务上实现了49.7%的准确率(4-shot和Chain-of-Thought)。人类评估表明,人类在理解和定位方面的准确率分别达到91.03%和100%。我们发现,在定位任务中,上下文学习(ICL)和链式推理会严重降低GeminiPro的性能。此外,我们还发现了VLM的ICL能力的一个潜在弱点:即使正确答案作为少量示例在上下文窗口中,它们仍无法定位视错觉。
  • 图表
  • 解决问题
    本论文旨在探讨Vision Language Models(VLM)在处理具有挑战性的视错觉和难以解释的场景时的表现如何,以及其在两个多项选择VQA任务中的能力——理解和软定位。
  • 关键思路
    论文使用了一个名为IllusionVQA的数据集,并测试了几种VLM的性能。结果显示,最佳表现的VLM GPT4V在理解任务上的准确率为62.99%,在定位任务上的准确率为49.7%。
  • 其它亮点
    论文的亮点包括使用了一个新颖的数据集IllusionVQA,测试了多个VLM的性能,发现了In-Context Learning(ICL)和Chain-of-Thought推理对GeminiPro在定位任务上的性能有重大影响,并发现了VLM的潜在弱点。
  • 相关研究
    与此相关的最新研究包括:1.《ViLBERT:预训练任务和联合学习架构的多模态BERT》;2.《VisualBERT:用于视觉关系推理和视觉问题回答的预训练模型》;3.《Visual-linguistic pretraining for image captioning and VQA》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论