- 简介我们介绍了一种名为VISUAL EMBEDDED INSTRUCTION(VIM)的新框架,旨在评估多模态大语言模型(MLLMs)的视觉指令跟随能力。如图2所示,VIM通过将指令嵌入到视觉场景中,要求模型具备强大的视觉解释能力来进行指令跟随,从而挑战了MLLMs。我们将VIM适应于各种基准测试,包括VQAv2、MME、MM-Vet和RefCOCO系列,构成了一个VIM基准测试,并在三种不同的上下文学习设置(Zero Shot、One Shot和Pair Shot)下测试了各种不同的MLLMs。我们观察到,开源MLLMs和GPT-4V之间存在显著的性能差距,这意味着它们在视觉指令理解方面的熟练程度还不够。我们的结果突出了提高MLLMs指令跟随能力的有前途的方向。我们希望VIM能够成为推进技术发展和推动该领域进一步进展的有用标准。
- 图表
- 解决问题评估多模态大语言模型(MLLMs)的视觉指令跟随能力,并提出一种新的评估框架VIM。
- 关键思路将指令嵌入到视觉场景中,要求模型具有强大的视觉解释能力,通过VIM框架评估多个MLLMs的性能差异。
- 其它亮点实验结果显示,目前开源的MLLMs在视觉指令理解能力方面表现不佳,与GPT-4V存在显著性能差距。论文提出的VIM框架可作为评估MLLMs指令跟随能力的有效标准,有助于推动该领域的进一步发展。
- 最近的相关研究包括:VQAv2、MME、MM-Vet和RefCOCO系列。
沙发等你来抢
去评论
评论
沙发等你来抢