VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

2023年11月29日
  • 简介
    我们介绍了一种名为VISUAL EMBEDDED INSTRUCTION(VIM)的新框架,旨在评估多模态大语言模型(MLLMs)的视觉指令跟随能力。如图2所示,VIM通过将指令嵌入到视觉场景中,要求模型具备强大的视觉解释能力来进行指令跟随,从而挑战了MLLMs。我们将VIM适应于各种基准测试,包括VQAv2、MME、MM-Vet和RefCOCO系列,构成了一个VIM基准测试,并在三种不同的上下文学习设置(Zero Shot、One Shot和Pair Shot)下测试了各种不同的MLLMs。我们观察到,开源MLLMs和GPT-4V之间存在显著的性能差距,这意味着它们在视觉指令理解方面的熟练程度还不够。我们的结果突出了提高MLLMs指令跟随能力的有前途的方向。我们希望VIM能够成为推进技术发展和推动该领域进一步进展的有用标准。
  • 图表
  • 解决问题
    评估多模态大语言模型(MLLMs)的视觉指令跟随能力,并提出一种新的评估框架VIM。
  • 关键思路
    将指令嵌入到视觉场景中,要求模型具有强大的视觉解释能力,通过VIM框架评估多个MLLMs的性能差异。
  • 其它亮点
    实验结果显示,目前开源的MLLMs在视觉指令理解能力方面表现不佳,与GPT-4V存在显著性能差距。论文提出的VIM框架可作为评估MLLMs指令跟随能力的有效标准,有助于推动该领域的进一步发展。
  • 相关研究
    最近的相关研究包括:VQAv2、MME、MM-Vet和RefCOCO系列。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论