BLINK: Multimodal Large Language Models Can See but Not Perceive

2024年04月18日
  • 简介
    我们介绍了Blink,这是一个新的多模态语言模型(LLM)基准,专注于其他评估中没有的核心视觉感知能力。大多数Blink任务可以在人类“眨眼间”内解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,我们发现这些需要感知能力的任务对于当前的多模态LLM来说具有重大挑战,因为它们不能通过自然语言进行调解。Blink将14个经典的计算机视觉任务重新格式化为3,807个选择题,配有单个或多个图像和视觉提示。虽然人类平均准确率达到了95.70%,但对于现有的多模态LLM来说,Blink具有惊人的挑战性:即使是表现最好的GPT-4V和Gemini的准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%,表明这些感知能力在最近的多模态LLM中尚未“出现”。我们的分析还强调,专业的计算机视觉模型可以更好地解决这些问题,为未来的改进提供了潜在的途径。我们相信Blink将激发社区帮助多模态LLM赶上人类级别的视觉感知。
  • 解决问题
    论文试图通过引入Blink数据集解决当前多模态语言模型中缺乏核心视觉感知能力的问题,提高多模态语言模型在视觉感知方面的表现。
  • 关键思路
    Blink数据集将14个经典的计算机视觉任务转化为3807个多选题,涵盖了相对深度估计、视觉对应、取证检测和多视图推理等任务,用于评估多模态语言模型在视觉感知方面的表现。实验结果表明,现有的多模态语言模型在这些任务上表现不佳,而专业的计算机视觉模型则可以更好地解决这些问题。
  • 其它亮点
    Blink数据集的提出,对于多模态语言模型在视觉感知方面的表现提出了新的挑战。实验结果表明现有的多模态语言模型在这些任务上表现不佳,而专业的计算机视觉模型则可以更好地解决这些问题。该数据集的开源将有助于推动多模态语言模型在视觉感知方面的研究。
  • 相关研究
    近期的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论