BLINK: Multimodal Large Language Models Can See but Not Perceive

向作者提问

NEW

简介

我们介绍了Blink，这是一个新的多模态语言模型（LLMs）基准，专注于其他评估中没有的核心视觉感知能力。大多数Blink任务可以在人类“眨眼之间”内解决（例如，相对深度估计、视觉对应、取证检测和多视角推理）。然而，我们发现这些要求感知能力的任务对于当前的多模态LLMs来说存在重大挑战，因为它们无法通过自然语言进行调解。Blink将14个经典的计算机视觉任务重新格式化为3,807个多项选择题，配对单个或多个图像和视觉提示。虽然人类平均准确率达到了95.70％，但Blink对现有的多模态LLMs来说非常具有挑战性：即使是最佳表现的GPT-4V和Gemini的准确率也只有51.26％和45.72％，仅比随机猜测高出13.17％和7.63％，这表明这些感知能力在最近的多模态LLMs中尚未“出现”。我们的分析还强调，专业的CV模型可以更好地解决这些问题，为未来的改进提供了潜在的途径。我们相信Blink将激发社区帮助多模态LLMs赶上人类水平的视觉感知。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文提出了一个新的基准测试Blink，旨在测试多模态语言模型（LLMs）在核心视觉感知能力方面的表现。这些任务大多可以在眨眼之间完成，但对于当前的多模态LLMs来说仍然具有挑战性。
关键思路

Blink将14个经典的计算机视觉任务转化为3807个多项选择问题，并配备单个或多个图像和视觉提示。通过对比人类和多模态LLMs的表现，发现这些感知能力在最近的多模态LLMs中尚未“出现”。同时，研究还发现专业的计算机视觉模型在这些任务上表现更好，为未来的改进提供了潜在的途径。
其它亮点

本文的亮点包括：1. 提出了一个新的基准测试Blink，强调了多模态LLMs在核心视觉感知能力方面的不足；2. 通过对比人类和多模态LLMs的表现，揭示了当前多模态LLMs的局限性；3. 研究发现专业的计算机视觉模型在这些任务上表现更好，为未来的改进提供了潜在的途径。
相关研究

在这个领域中，最近的相关研究包括：1. CLIP: Connecting Text and Images for Comprehensive Understanding (Radford et al., 2021)；2. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks (Lu et al., 2019)；3. LXMERT: Learning Cross-Modality Encoder Representations from Transformers (Tan and Bansal, 2019)。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问