- 简介大型视觉语言模型(LVLMs)在通用多模态应用中取得了显着进展,例如视觉对话和具体化导航。然而,现有的多模态评估基准只涵盖了少量测试基本能力的多模态任务,无法跟上LVLM发展的步伐。在本研究中,我们提出了MMT-Bench,这是一个全面的基准,旨在评估LVLMs在需要专业知识和刻意视觉识别、定位、推理和规划的大规模多模态任务中的表现。MMT-Bench包括来自各种多模态场景(如车辆驾驶和具体化导航)的31,325个精心策划的多选视觉问题,涵盖了32个核心元任务和162个多模态理解子任务。由于其广泛的任务覆盖范围,MMT-Bench使用任务地图评估LVLMs,便于发现域内和域外任务。涉及30个LVLMs的评估结果,如专有的GPT-4V、GeminiProVision和开源的InternVL-Chat,强调了MMT-Bench所带来的重大挑战。我们预计MMT-Bench将激励社区开发旨在实现通用多模态智能的下一代多模态基础模型。
- 图表
- 解决问题本文旨在解决现有多模态评估基准测试在跟踪LVLM发展方面存在的问题,因此提出了一个全面的基准测试MMT-Bench,以评估LVLM在需要专业知识和刻意视觉识别、定位、推理和规划的大规模多模态任务中的表现。
- 关键思路本文提出了一个全面的基准测试MMT-Bench,包括31,325个来自各种多模态场景的选择题,涵盖了32个核心元任务和162个子任务,以便评估LVLM的性能。
- 其它亮点MMT-Bench基准测试的任务覆盖面广,能够评估LVLM的性能,实验结果表明,MMT-Bench提出的任务对于当前的LVLM来说是具有挑战性的。本文所使用的数据集和代码都已开源,这有助于其他研究人员进一步研究。
- 最近的相关研究包括:《VisualBERT:一种大规模多模态预训练模型》、《UNITER:一种通用跨模态预训练转换器》、《LXMERT:一种视觉语言多任务学习模型》等。
沙发等你来抢
去评论
评论
沙发等你来抢