- 简介大型视觉语言模型(LVLM)最近取得了快速进展,引发了许多研究来评估它们的多模态能力。然而,我们深入研究了当前的评估工作,并确定了两个主要问题:1)许多样本不需要视觉内容。答案可以直接从问题和选项中推断出来,或者是嵌入在LLM中的世界知识。这种现象在当前的基准测试中普遍存在。例如,GeminiPro在MMMUBenchmark上取得了42.9%的成绩,没有任何视觉输入,并且在六个基准测试中平均超过20%的随机选择基线。2)LLM和LVLM训练中存在意外的数据泄漏。LLM和LVLM可以回答一些需要视觉内容的问题,表明它们在大规模训练数据中记忆了这些样本。例如,Sphinx-X-MoE在没有访问图像的情况下在MMMUBenchmark上获得了43.6%的成绩,超过其LLM骨干网络17.9%。这两个问题都会导致对实际多模态收益的误判,并可能误导LVLM的研究。为此,我们提出了MMStar,一个由人类精心选择的精英视觉不可或缺的多模态基准,包括1500个样本。MMStar基准测试了6个核心能力和18个详细轴,旨在用精心平衡和纯化的样本评估LVLM的多模态能力。这些样本首先通过自动流水线从当前基准测试中大致选择出来,然后涉及人工审核,以确保每个策展样本都展示出视觉依赖性,最小化数据泄漏,并需要先进的多模态能力。此外,我们开发了两个指标来衡量数据泄漏和多模态训练中的实际性能增益。我们在MMStar上评估了16个领先的LVLM,以评估它们的多模态能力,并在7个基准测试中使用提出的指标来调查它们的数据泄漏和实际多模态收益。
- 图表
- 解决问题解决问题:论文旨在解决当前多模态评估工作中存在的两个主要问题:1)许多样本不需要视觉内容就能得出答案,这会影响多模态能力的实际评估;2)大规模训练数据中存在意外数据泄漏,这会导致模型记忆到视觉相关问题的答案而不需要视觉内容。
- 关键思路关键思路:为了解决这两个问题,论文提出了一个新的多模态基准数据集MMStar,其中包含1500个人工精选的样本,确保每个样本都需要视觉内容,并且没有数据泄漏。此外,论文还提出了两个度量标准来衡量数据泄漏和实际多模态训练的性能增益。
- 其它亮点亮点:MMStar数据集是一个人工筛选的多模态基准数据集,可以用于评估LVLM的多模态能力。论文还评估了16个主流LVLM模型在MMStar上的性能,并使用提出的度量标准在7个基准数据集上评估了它们的数据泄漏和实际多模态增益。
- 相关研究:最近的相关研究包括视觉问答和自然语言处理领域的多模态模型评估,如VQA和GQA数据集。
沙发等你来抢
去评论
评论
沙发等你来抢