BLINK: Multimodal Large Language Models Can See but Not Perceive

简介

我们推出了Blink，这是一个针对多模式语言模型（LLMs）的新基准，专注于其他评估中没有的核心视觉感知能力。Blink的大部分任务都可以在人类“眨眼间”内解决（例如，相对深度估计、视觉对应、取证检测和多视角推理）。然而，我们发现这些需要感知能力的任务对于当前的多模式LLMs来说存在重大挑战，因为它们无法通过自然语言进行调节。Blink将14个经典的计算机视觉任务重新格式化为3,807个多项选择题，配对单个或多个图像和视觉提示。虽然人类平均获得95.70%的准确率，但对于现有的多模式LLMs来说，Blink令人惊讶地具有挑战性：即使是表现最好的GPT-4V和Gemini也只能获得51.26%和45.72%的准确率，仅比随机猜测高13.17%和7.63%，这表明这种感知能力在最近的多模式LLMs中尚未“出现”。我们的分析还强调，专业的CV模型可以更好地解决这些问题，为未来的改进提供了潜在的途径。我们相信Blink将激发社区帮助多模式LLMs赶上人类水平的视觉感知。
解决问题

本文提出了一个新的多模态语言模型基准——Blink，旨在解决当前多模态语言模型在核心视觉知觉能力上的挑战。该模型通过14项计算机视觉任务来测试模型的视觉感知能力，这些任务难以通过自然语言进行中介。作者试图验证当前多模态语言模型是否已经具备了人类水平的视觉感知能力。
关键思路

Blink将14个计算机视觉任务转化为3,807个多项选择题，配备单个或多个图像和视觉提示。作者发现，即使是最好的多模态语言模型GPT-4V和Gemini也只能达到51.26％和45.72％的准确率，仅比随机猜测高13.17％和7.63％，表明这些感知能力尚未在最近的多模态语言模型中出现。
其它亮点

Blink是一个新的多模态语言模型基准，具有挑战性。作者发现，当前的多模态语言模型在核心视觉知觉能力上仍存在挑战。作者还指出，专门的计算机视觉模型可以更好地解决这些问题，为未来的改进提供了潜在的途径。
相关研究

最近的相关研究包括VQA，VizWiz，GQA等。

BLINK: Multimodal Large Language Models Can See but Not Perceive

评论