MIBench: Evaluating Multimodal Large Language Models over Multiple Images

2024年07月21日
  • 简介
    利用LLMs的强大能力,最近出现了许多多模态大语言模型(MLLMs),在多个基准测试中取得了卓越的视觉语言任务表现。然而,大多数现有的MLLMs和基准测试主要关注单图像输入场景,对于MLLMs在处理现实多图像时的表现仍未得到充分探索。尽管有一些基准测试考虑了多个图像,但它们的评估维度和样本非常有限。因此,在本文中,我们提出了一个新的基准测试MIBench,全面评估MLLMs在多图像场景下的细粒度能力。具体而言,MIBench将多图像能力分为三个场景:多图像指导(MII),多模态知识寻求(MKS)和多模态上下文学习(MIC),并构建了13个任务,共计13K个带注释的样本。在数据构建过程中,对于MII和MKS,我们从手动注释中提取正确选项,并创建具有挑战性的干扰项,以获得多项选择题。对于MIC,为了进行深入评估,我们设置了四个子任务,并将原始数据集转换为上下文学习格式。我们在提出的MIBench上评估了几个开源MLLMs和闭源MLLMs。结果表明,尽管当前模型在单图像任务上表现出色,但面对多图像输入时,它们存在显著的缺陷,例如混淆的细粒度感知、有限的多图像推理和不稳定的上下文学习。MIBench中的注释数据可在https://huggingface.co/datasets/StarBottle/MIBench上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决现有多模态大型语言模型在处理多图像输入时的性能问题,提出了一个新的多图像评估基准MIBench。
  • 关键思路
    MIBench将多图像能力分为三个场景,并构建了13个任务进行全面评估。论文通过MIBench评估了多个开源和闭源多模态大型语言模型,发现这些模型在处理多图像输入时存在困难和不足之处。
  • 其它亮点
    论文使用MIBench评估了多个开源和闭源多模态大型语言模型,提供了一个全面的多图像能力评估基准。论文还公开了MIBench的数据集和代码。值得深入研究的是,当前的模型在处理多图像输入时表现出的不足和困难。
  • 相关研究
    近期的相关研究包括:1) ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks;2)LXMERT: Learning Cross-Modality Encoder Representations from Transformers;3)UNICORN: Continual Learning with a Universal, Off-policy Agent。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问