VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

简介

我们介绍了一种名为VISUAL EMBEDDED INSTRUCTION（VIM）的新框架，旨在评估多模态大语言模型（MLLMs）的视觉指令跟随能力。如图2所示，VIM通过将指令嵌入到视觉场景中，要求模型具备强大的视觉解释能力来进行指令跟随，从而挑战了MLLMs。我们将VIM适应于各种基准测试，包括VQAv2、MME、MM-Vet和RefCOCO系列，构成了一个VIM基准测试，并在三种不同的上下文学习设置（Zero Shot、One Shot和Pair Shot）下测试了各种不同的MLLMs。我们观察到，开源MLLMs和GPT-4V之间存在显著的性能差距，这意味着它们在视觉指令理解方面的熟练程度还不够。我们的结果突出了提高MLLMs指令跟随能力的有前途的方向。我们希望VIM能够成为推进技术发展和推动该领域进一步进展的有用标准。
图表
解决问题

评估多模态大语言模型（MLLMs）的视觉指令跟随能力，并提出一种新的评估框架VIM。
关键思路

将指令嵌入到视觉场景中，要求模型具有强大的视觉解释能力，通过VIM框架评估多个MLLMs的性能差异。
其它亮点

实验结果显示，目前开源的MLLMs在视觉指令理解能力方面表现不佳，与GPT-4V存在显著性能差距。论文提出的VIM框架可作为评估MLLMs指令跟随能力的有效标准，有助于推动该领域的进一步发展。
相关研究

最近的相关研究包括：VQAv2、MME、MM-Vet和RefCOCO系列。