Vision language models are blind

简介

大型具备视觉能力的语言模型（VLMs），例如GPT-4o和Gemini 1.5 Pro，正在为无数的图像文本应用提供动力，并在许多视觉理解基准测试中得分很高。我们提出了BlindTest，一个包含7个视觉任务的套件，对于人类来说非常容易，例如识别（a）两个圆是否重叠；（b）两条直线是否相交；（c）单词中被圈起来的字母是哪一个；以及（d）奥林匹克式标志中圆的数量。令人惊讶的是，四个最先进的VLMs在我们的基准测试中平均只有56.20%的准确率，其中\newsonnet是最好的（73.77%的准确率）。在BlindTest中，VLMs在需要精确空间信息和计数（从0到10）的任务上遇到困难，有时会给人一种近视的印象，看到的细节模糊，做出的猜测是有根据的。代码可在以下网址获取：https://vlmsareblind.github.io/。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

评估现有的大型语言模型在解决简单的视觉任务上的表现，探讨它们在需要精确空间信息和计数时的表现情况。
关键思路

提出了BlindTest套件，包含7个对人类来说非常简单的视觉任务，通过测试四种最先进的VLM，发现它们在BlindTest上的平均准确率只有56.20％，其中 ewsonnet表现最好（73.77％准确率）。
其它亮点

BlindTest套件包含简单易懂的视觉任务，能够有效评估大型语言模型在视觉理解方面的表现。实验结果表明，VLM在需要精确空间信息和计数时表现不佳。研究者提供了代码和数据集。
相关研究

最近的相关研究主要集中在大型语言模型在视觉任务上的表现，如ViLBERT、LXMERT等。

Vision language models are blind

提问交流

提问交流