NEW

II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models

Ziqiang Liu ,

Feiteng Fang ,

Xi Feng ,

Xinrun Du ,

Chenhao Zhang ,

Zekun Wang ,

Yuelin Bai ,

Qixuan Zhao ,

Liyang Fan ,

Chengguang Gan ,

Hongquan Lin ,

Jiaming Li ,

Yuansheng Ni ,

Haihong Wu ,

Yaswanth Narsupalli ,

Zhigang Zheng ,

Chengming Li ,

Xiping Hu ,

Ruifeng Xu ,

Xiaojun Chen ,

Min Yang ,

Jiaheng Liu ,

Ruibo Liu ,

Wenhao Huang ,

Ge Zhang ,

Shiwen Ni

2024年06月09日

简介

多模态大语言模型（MLLMs）的快速发展不断在各种基准测试中取得新的突破。为此，提出了许多具有挑战性和全面性的基准测试，以更准确地评估MLLMs的能力。然而，对MLLMs的高阶知觉能力的探索还不足。为填补这一空白，我们提出了图像蕴含理解基准测试（II-Bench），旨在评估模型对图像的高阶感知能力。通过在多个MLLMs上进行II-Bench的大量实验，我们取得了重要发现。首先，观察到MLLMs和人类在II-Bench上的表现存在显著差距。MLLMs的巅峰准确率达到74.8％，而人类的准确率平均为90％，峰值高达98％，其次，MLLMs在抽象和复杂图像上的表现较差，表明其理解高级语义和捕捉图像细节的能力有限。最后，观察到当将图像情感极性提示纳入提示时，大多数模型的准确率都有所提高。这一观察结果突显了它们对图像情感的内在理解存在明显的不足。我们相信，II-Bench将激发社区开发下一代MLLMs，推动向专家级人工通用智能（AGI）的旅程迈进。 II-Bench可在https://huggingface.co/datasets/m-a-p/II-Bench上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探讨多模态大语言模型（MLLM）对图像的高阶感知能力，提出了Image Implication understanding Benchmark（II-Bench）评测数据集，试图填补目前评估MLLM高阶感知能力的研究空白。
关键思路

通过在II-Bench上对多个MLLM进行广泛实验，发现MLLM在高阶感知能力上表现较差，与人类的表现存在较大差距。同时，MLLM在抽象和复杂图像上表现更差，存在理解高层语义和捕捉图像细节的局限性。此外，加入图像情感极性提示可以提高模型的准确性，这表明MLLM在图像情感理解方面存在不足。
其它亮点

论文提出了II-Bench评测数据集，对多个MLLM进行了广泛实验，发现MLLM在高阶感知能力上表现较差，存在理解高层语义和捕捉图像细节的局限性。同时，加入图像情感极性提示可以提高模型的准确性，这表明MLLM在图像情感理解方面存在不足。论文开源了II-Bench评测数据集。
相关研究

最近的相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Vilbert: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问