Are We on the Right Way for Evaluating Large Vision-Language Models?

2024年03月29日
  • 简介
    大型视觉-语言模型(LVLMs)最近取得了快速进展,引发了许多研究来评估它们的多模态能力。然而,我们深入研究当前的评估工作,并确定了两个主要问题:1)对于许多样本,视觉内容是不必要的。答案可以直接从问题和选项中推断出来,或者从LLMs中嵌入的世界知识中推断出来。这种现象在当前的基准测试中普遍存在。例如,GeminiPro在没有任何视觉输入的情况下在MMMU基准测试中取得了42.9%的成绩,并在六个基准测试中平均超过24%的随机选择基线。2)LLM和LVLM训练中存在意外的数据泄漏。LLM和LVLM仍然可以回答一些需要视觉内容的问题,表明这些样本在大规模训练数据中被记忆。例如,Sphinx-X-MoE在没有访问图像的情况下在MMMU上获得43.6%的成绩,超过其LLM骨干网络17.9%。这两个问题都会导致对实际多模态收益的误判,并可能误导LVLM的研究。为此,我们提出了MMStar,这是一个由人类精心选择的精英视觉不可或缺的多模态基准,包括1500个样本。MMStar基准测试了6个核心能力和18个详细轴,旨在使用精心平衡和纯化的样本评估LVLM的多模态能力。这些样本首先通过自动化流程从当前基准测试中粗略选择,然后涉及人工审查,以确保每个策划的样本展示出视觉依赖性,最小化数据泄漏,并需要先进的多模态能力。此外,我们开发了两个指标来衡量数据泄漏和多模态训练中的实际性能增益。我们在MMStar上评估了16个领先的LVLM,以评估它们的多模态能力,并在7个基准测试中使用所提出的指标调查它们的数据泄漏和实际多模态增益。
  • 解决问题
    多模态评估中存在的两个主要问题:许多样本不需要视觉内容,而且在LLM和LVLM训练中存在意外的数据泄漏。本文旨在解决这些问题并提出一个新的多模态基准MMStar。
  • 关键思路
    MMStar是一个由人类精心挑选的视觉必需的多模态基准,旨在评估LVLM的多模态能力,并提出了两个度量标准来测量数据泄漏和实际性能增益。
  • 其它亮点
    本文提出了MMStar基准,其中包括6个核心能力和18个详细轴,共1500个样本,经过自动化管道和人工审核筛选,确保每个样本都表现出视觉依赖性、最小的数据泄漏和需要先进的多模态能力。本文在16个领先的LVLM上评估了MMStar,以评估它们的多模态能力,并使用提出的度量标准在7个基准上进行数据泄漏和实际多模态增益的研究。
  • 相关研究
    最近的相关研究包括:VisualBERT、ViLBERT、LXMERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论