- 简介Vision Language Models(VLM)的出现使得研究人员能够使用自然语言来研究神经网络对视觉的理解。除了目标分类和检测之外,VLM还能够进行视觉理解和常识推理。这自然引出了一个问题:当图像本身是不合理的时,VLM会如何响应?为此,我们提出了IllusionVQA:一个多样化的具有挑战性的视错觉和难以解释的场景数据集,用于测试VLM在两个不同的多项选择VQA任务中的能力——理解和软定位。最佳表现的VLM GPT4V在理解任务上实现了62.99%的准确率(4-shot),在定位任务上实现了49.7%的准确率(4-shot和Chain-of-Thought)。人类评估表明,人类在理解和定位方面的准确率分别达到了91.03%和100%。我们发现,在定位任务上,上下文学习(ICL)和Chain-of-Thought推理会严重降低GeminiPro的性能。此外,我们还发现VLM的ICL能力存在潜在的弱点:即使正确答案在上下文窗口中作为少量示例给出,它们仍无法定位视错觉。
-
- 图表
- 解决问题本文旨在探讨Vision Language Models(VLM)在面对具有挑战性的视错觉和难以解释的场景时的表现,以测试其在理解和软定位两个不同的多项选择VQA任务中的能力。
- 关键思路本文提出了IllusionVQA数据集,包含各种具有挑战性的视错觉和难以解释的场景,用于测试VLM的能力。作者发现,VLM在定位任务中的性能会受到In-Context Learning(ICL)和Chain-of-Thought推理的显著影响,而在理解任务中的表现较好。
- 其它亮点本文使用了IllusionVQA数据集,测试了各种VLM的性能,GPT4V在理解任务中的表现最好,而在定位任务中的表现较差。作者还发现,ICL和Chain-of-Thought推理会降低GeminiPro在定位任务中的性能。此外,作者还发现VLM在定位视错觉方面存在潜在弱点。
- 与本文相关的研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流