Vision language models are blind

2024年07月09日
  • 简介
    大型具备视觉能力的语言模型(VLMs),例如GPT-4o和Gemini 1.5 Pro,正在为无数的图像文本应用提供动力,并在许多视觉理解基准测试中得分很高。我们提出了BlindTest,一个包含7个视觉任务的套件,对于人类来说非常容易,例如识别(a)两个圆是否重叠;(b)两条直线是否相交;(c)单词中被圈起来的字母是哪一个;以及(d)奥林匹克式标志中圆的数量。令人惊讶的是,四个最先进的VLMs在我们的基准测试中平均只有56.20%的准确率,其中\newsonnet是最好的(73.77%的准确率)。在BlindTest中,VLMs在需要精确空间信息和计数(从0到10)的任务上遇到困难,有时会给人一种近视的印象,看到的细节模糊,做出的猜测是有根据的。代码可在以下网址获取:https://vlmsareblind.github.io/。
  • 作者讲解·2
  • 图表
  • 解决问题
    评估现有的大型语言模型在解决简单的视觉任务上的表现,探讨它们在需要精确空间信息和计数时的表现情况。
  • 关键思路
    提出了BlindTest套件,包含7个对人类来说非常简单的视觉任务,通过测试四种最先进的VLM,发现它们在BlindTest上的平均准确率只有56.20%,其中 ewsonnet表现最好(73.77%准确率)。
  • 其它亮点
    BlindTest套件包含简单易懂的视觉任务,能够有效评估大型语言模型在视觉理解方面的表现。实验结果表明,VLM在需要精确空间信息和计数时表现不佳。研究者提供了代码和数据集。
  • 相关研究
    最近的相关研究主要集中在大型语言模型在视觉任务上的表现,如ViLBERT、LXMERT等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问