II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models

2024年06月09日
  • 简介
    多模态大语言模型(MLLMs)的快速发展不断在各种基准测试中取得新的突破。为此,提出了许多具有挑战性和全面性的基准测试,以更准确地评估MLLMs的能力。然而,对MLLMs的高阶知觉能力的探索还不足。为填补这一空白,我们提出了图像蕴含理解基准测试(II-Bench),旨在评估模型对图像的高阶感知能力。通过在多个MLLMs上进行II-Bench的大量实验,我们取得了重要发现。首先,观察到MLLMs和人类在II-Bench上的表现存在显著差距。MLLMs的巅峰准确率达到74.8%,而人类的准确率平均为90%,峰值高达98%,其次,MLLMs在抽象和复杂图像上的表现较差,表明其理解高级语义和捕捉图像细节的能力有限。最后,观察到当将图像情感极性提示纳入提示时,大多数模型的准确率都有所提高。这一观察结果突显了它们对图像情感的内在理解存在明显的不足。我们相信,II-Bench将激发社区开发下一代MLLMs,推动向专家级人工通用智能(AGI)的旅程迈进。 II-Bench可在https://huggingface.co/datasets/m-a-p/II-Bench上公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探讨多模态大语言模型(MLLM)对图像的高阶感知能力,提出了Image Implication understanding Benchmark(II-Bench)评测数据集,试图填补目前评估MLLM高阶感知能力的研究空白。
  • 关键思路
    通过在II-Bench上对多个MLLM进行广泛实验,发现MLLM在高阶感知能力上表现较差,与人类的表现存在较大差距。同时,MLLM在抽象和复杂图像上表现更差,存在理解高层语义和捕捉图像细节的局限性。此外,加入图像情感极性提示可以提高模型的准确性,这表明MLLM在图像情感理解方面存在不足。
  • 其它亮点
    论文提出了II-Bench评测数据集,对多个MLLM进行了广泛实验,发现MLLM在高阶感知能力上表现较差,存在理解高层语义和捕捉图像细节的局限性。同时,加入图像情感极性提示可以提高模型的准确性,这表明MLLM在图像情感理解方面存在不足。论文开源了II-Bench评测数据集。
  • 相关研究
    最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Vilbert: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问