SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

2024年04月25日
  • 简介
    理解文本丰富的视觉内容对于实际应用多模态大语言模型(MLLMs)至关重要,因为文本丰富的场景在现实世界中无处不在,其特点是图像中嵌入了大量文本。最近,具有惊人多功能性的MLLMs的出现提高了我们对MLLMs的期望。然而,由于当前的MLLM基准主要侧重于评估一般视觉理解能力,因此尚未全面客观地评估它们在文本丰富的场景中的熟练程度。在这项工作中,我们介绍了SEED-Bench-2-Plus,这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准。我们的基准包括2.3K个精确的人工注释的多项选择题,涵盖了三个广泛的类别:图表、地图和网页,每个类别都涵盖了现实世界中广泛的文本丰富场景。由于这些类别固有的复杂性和多样性,它们有效地模拟了现实世界的文本丰富环境。我们进一步进行了全面评估,涉及34个著名的MLLMs(包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus),并强调了MLLMs在文本丰富的视觉理解方面的当前限制。我们希望我们的工作可以成为现有MLLM基准的有价值的补充,提供有见地的观察,并激发在MLLMs文本丰富视觉理解领域的进一步研究。数据集和评估代码可以在https://github.com/AILab-CVC/SEED-Bench上获得。
  • 作者讲解
  • 图表
  • 解决问题
    评估多模态大语言模型在文本丰富的视觉场景下的表现,提出了一个新的基准SEED-Bench-2-Plus。
  • 关键思路
    SEED-Bench-2-Plus基准包含三个类别的2.3K个多项选择题,涵盖了现实世界中的图表、地图和网络等文本丰富的场景。通过对34个主流多模态大语言模型的评估,强调了它们在文本丰富的视觉场景下的局限性。
  • 其它亮点
    本文提出了一个新的基准SEED-Bench-2-Plus,用于评估多模态大语言模型在文本丰富的视觉场景下的表现。基准包含2.3K个多项选择题,涵盖了现实世界中的图表、地图和网络等文本丰富的场景。作者对34个主流多模态大语言模型进行了评估,并强调了它们在文本丰富的视觉场景下的局限性。作者希望该基准能够成为现有多模态大语言模型基准的有价值补充,为该领域的进一步研究提供启示。
  • 相关研究
    在该领域的相关研究中,最近的研究包括VQA、CLEVR和GQA等基准。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问