- 简介我们介绍了Blink,这是一个新的多模态语言模型(LLMs)基准,专注于其他评估中没有的核心视觉感知能力。大多数Blink任务可以在人类“眨眼之间”内解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,我们发现这些要求感知能力的任务对于当前的多模态LLMs来说存在重大挑战,因为它们无法通过自然语言进行调解。Blink将14个经典的计算机视觉任务重新格式化为3,807个多项选择题,配对单个或多个图像和视觉提示。虽然人类平均准确率达到了95.70%,但Blink对现有的多模态LLMs来说非常具有挑战性:即使是最佳表现的GPT-4V和Gemini的准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%,这表明这些感知能力在最近的多模态LLMs中尚未“出现”。我们的分析还强调,专业的CV模型可以更好地解决这些问题,为未来的改进提供了潜在的途径。我们相信Blink将激发社区帮助多模态LLMs赶上人类水平的视觉感知。
-
- 图表
- 解决问题本文提出了一个新的基准测试Blink,旨在测试多模态语言模型(LLMs)在核心视觉感知能力方面的表现。这些任务大多可以在眨眼之间完成,但对于当前的多模态LLMs来说仍然具有挑战性。
- 关键思路Blink将14个经典的计算机视觉任务转化为3807个多项选择问题,并配备单个或多个图像和视觉提示。通过对比人类和多模态LLMs的表现,发现这些感知能力在最近的多模态LLMs中尚未“出现”。同时,研究还发现专业的计算机视觉模型在这些任务上表现更好,为未来的改进提供了潜在的途径。
- 其它亮点本文的亮点包括:1. 提出了一个新的基准测试Blink,强调了多模态LLMs在核心视觉感知能力方面的不足;2. 通过对比人类和多模态LLMs的表现,揭示了当前多模态LLMs的局限性;3. 研究发现专业的计算机视觉模型在这些任务上表现更好,为未来的改进提供了潜在的途径。
- 在这个领域中,最近的相关研究包括:1. CLIP: Connecting Text and Images for Comprehensive Understanding (Radford et al., 2021);2. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks (Lu et al., 2019);3. LXMERT: Learning Cross-Modality Encoder Representations from Transformers (Tan and Bansal, 2019)。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流