MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks

简介

多模态大语言模型（MLLMs）的日益普及已经引发了对这些模型评估的显著增加的研究。然而，当前的评估研究主要集中在模型在单模态（仅视觉）环境下理解和推理的能力上，忽视了在整合视觉和文本上下文的复杂多模态推理任务中进行关键性能评估的重要性。此外，要求跨多个模态进行推理的任务面临更大的挑战，需要对多模态上下文有深入的理解。在本文中，我们介绍了一个名为MM-InstructEval的全面评估框架，它整合了各种指标，以在广泛的具有视觉-文本上下文的多模态推理任务中提供各种模型和指令的全面评估。MM-InstructEval增强了对MLLM在复杂多模态推理任务中的性能研究，促进了对MLLM的更全面和整体的零-shot评估。我们首先利用“最佳性能”指标来确定每个模型在各种数据集上的上限性能。 “平均相对增益”指标提供了对不同模型和指令的整体性能分析，而“稳定性”指标评估了它们对变化的敏感性。历史上，研究集中于独立评估模型或仅评估指令，忽视了模型和指令之间的相互作用。为了解决这个问题，我们引入了“适应性”指标，旨在量化模型和指令之间的适应程度。评估在16个多模态数据集上进行，涵盖6个任务，使用10个不同的指令对31个模型（23个MLLM）进行评估。全面的分析使我们得出了新的见解。
图表
解决问题

本论文旨在解决当前评估大型语言模型在多模态推理任务中表现的缺陷，并提出一个综合评估框架MM-InstructEval。
关键思路

论文提出了一个综合评估框架MM-InstructEval，结合多种指标对各种模型和指令在多模态推理任务中的表现进行评估，并引入了适应性指标来评估模型和指令之间的适应性。
其它亮点

论文在16个多模态数据集上对31种模型进行了评估，提出了新的指标，如适应性指标，得出了新的结论。论文的实验设计、数据集和代码都进行了详细的描述。
相关研究

最近的相关研究包括：《VQA-E: Exploring the Limits of Visual Question Answering with Ephemeral Information》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。

MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks

评论