- 简介理解文本丰富的视觉内容对于实际应用多模态大语言模型(MLLMs)至关重要,因为文本丰富的场景在现实世界中无处不在,其特点是图像中嵌入了大量文本。最近,具有惊人多功能性的MLLMs的出现提高了我们对MLLMs的期望。然而,由于当前的MLLM基准主要侧重于评估一般视觉理解能力,因此尚未全面客观地评估它们在文本丰富的场景中的熟练程度。在这项工作中,我们介绍了SEED-Bench-2-Plus,这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准。我们的基准包括2.3K个精确的人工注释的多项选择题,涵盖了三个广泛的类别:图表、地图和网页,每个类别都涵盖了现实世界中广泛的文本丰富场景。由于这些类别固有的复杂性和多样性,它们有效地模拟了现实世界的文本丰富环境。我们进一步进行了全面评估,涉及34个著名的MLLMs(包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus),并强调了MLLMs在文本丰富的视觉理解方面的当前限制。我们希望我们的工作可以成为现有MLLM基准的有价值的补充,提供有见地的观察,并激发在MLLMs文本丰富视觉理解领域的进一步研究。数据集和评估代码可以在https://github.com/AILab-CVC/SEED-Bench上获得。
-
- 图表
- 解决问题评估多模态大语言模型在文本丰富的视觉场景下的表现,提出了一个新的基准SEED-Bench-2-Plus。
- 关键思路SEED-Bench-2-Plus基准包含三个类别的2.3K个多项选择题,涵盖了现实世界中的图表、地图和网络等文本丰富的场景。通过对34个主流多模态大语言模型的评估,强调了它们在文本丰富的视觉场景下的局限性。
- 其它亮点本文提出了一个新的基准SEED-Bench-2-Plus,用于评估多模态大语言模型在文本丰富的视觉场景下的表现。基准包含2.3K个多项选择题,涵盖了现实世界中的图表、地图和网络等文本丰富的场景。作者对34个主流多模态大语言模型进行了评估,并强调了它们在文本丰富的视觉场景下的局限性。作者希望该基准能够成为现有多模态大语言模型基准的有价值补充,为该领域的进一步研究提供启示。
- 在该领域的相关研究中,最近的研究包括VQA、CLEVR和GQA等基准。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流