SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

向作者提问

NEW

简介

理解文本丰富的视觉内容对于实际应用多模态大语言模型（MLLMs）至关重要，因为文本丰富的场景在现实世界中无处不在，其特点是图像中嵌入了大量文本。最近，具有惊人多功能性的MLLMs的出现提高了我们对MLLMs的期望。然而，由于当前的MLLM基准主要侧重于评估一般视觉理解能力，因此尚未全面客观地评估它们在文本丰富的场景中的熟练程度。在这项工作中，我们介绍了SEED-Bench-2-Plus，这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准。我们的基准包括2.3K个精确的人工注释的多项选择题，涵盖了三个广泛的类别：图表、地图和网页，每个类别都涵盖了现实世界中广泛的文本丰富场景。由于这些类别固有的复杂性和多样性，它们有效地模拟了现实世界的文本丰富环境。我们进一步进行了全面评估，涉及34个著名的MLLMs（包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus），并强调了MLLMs在文本丰富的视觉理解方面的当前限制。我们希望我们的工作可以成为现有MLLM基准的有价值的补充，提供有见地的观察，并激发在MLLMs文本丰富视觉理解领域的进一步研究。数据集和评估代码可以在https://github.com/AILab-CVC/SEED-Bench上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估多模态大语言模型在文本丰富的视觉场景下的表现，提出了一个新的基准SEED-Bench-2-Plus。
关键思路

SEED-Bench-2-Plus基准包含三个类别的2.3K个多项选择题，涵盖了现实世界中的图表、地图和网络等文本丰富的场景。通过对34个主流多模态大语言模型的评估，强调了它们在文本丰富的视觉场景下的局限性。
其它亮点

本文提出了一个新的基准SEED-Bench-2-Plus，用于评估多模态大语言模型在文本丰富的视觉场景下的表现。基准包含2.3K个多项选择题，涵盖了现实世界中的图表、地图和网络等文本丰富的场景。作者对34个主流多模态大语言模型进行了评估，并强调了它们在文本丰富的视觉场景下的局限性。作者希望该基准能够成为现有多模态大语言模型基准的有价值补充，为该领域的进一步研究提供启示。
相关研究

在该领域的相关研究中，最近的研究包括VQA、CLEVR和GQA等基准。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问