MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

简介

大型视觉语言模型（LVLMs）在通用多模态应用中取得了显着进展，例如视觉对话和具体化导航。然而，现有的多模态评估基准只涵盖了少量测试基本能力的多模态任务，无法跟上LVLM发展的步伐。在本研究中，我们提出了MMT-Bench，这是一个全面的基准，旨在评估LVLMs在需要专业知识和刻意视觉识别、定位、推理和规划的大规模多模态任务中的表现。MMT-Bench包括来自各种多模态场景（如车辆驾驶和具体化导航）的31,325个精心策划的多选视觉问题，涵盖了32个核心元任务和162个多模态理解子任务。由于其广泛的任务覆盖范围，MMT-Bench使用任务地图评估LVLMs，便于发现域内和域外任务。涉及30个LVLMs的评估结果，如专有的GPT-4V、GeminiProVision和开源的InternVL-Chat，强调了MMT-Bench所带来的重大挑战。我们预计MMT-Bench将激励社区开发旨在实现通用多模态智能的下一代多模态基础模型。
图表
解决问题

本文旨在解决现有多模态评估基准测试在跟踪LVLM发展方面存在的问题，因此提出了一个全面的基准测试MMT-Bench，以评估LVLM在需要专业知识和刻意视觉识别、定位、推理和规划的大规模多模态任务中的表现。
关键思路

本文提出了一个全面的基准测试MMT-Bench，包括31,325个来自各种多模态场景的选择题，涵盖了32个核心元任务和162个子任务，以便评估LVLM的性能。
其它亮点

MMT-Bench基准测试的任务覆盖面广，能够评估LVLM的性能，实验结果表明，MMT-Bench提出的任务对于当前的LVLM来说是具有挑战性的。本文所使用的数据集和代码都已开源，这有助于其他研究人员进一步研究。
相关研究

最近的相关研究包括：《VisualBERT：一种大规模多模态预训练模型》、《UNITER：一种通用跨模态预训练转换器》、《LXMERT：一种视觉语言多任务学习模型》等。

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

评论