MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

2024年04月24日
  • 简介
    大型视觉语言模型(LVLMs)在通用多模态应用中取得了显着进展,例如视觉对话和具体化导航。然而,现有的多模态评估基准只涵盖了少量测试基本能力的多模态任务,无法跟上LVLM发展的步伐。在本研究中,我们提出了MMT-Bench,这是一个全面的基准,旨在评估LVLMs在需要专业知识和刻意视觉识别、定位、推理和规划的大规模多模态任务中的表现。MMT-Bench包括来自各种多模态场景(如车辆驾驶和具体化导航)的31,325个精心策划的多选视觉问题,涵盖了32个核心元任务和162个多模态理解子任务。由于其广泛的任务覆盖范围,MMT-Bench使用任务地图评估LVLMs,便于发现域内和域外任务。涉及30个LVLMs的评估结果,如专有的GPT-4V、GeminiProVision和开源的InternVL-Chat,强调了MMT-Bench所带来的重大挑战。我们预计MMT-Bench将激励社区开发旨在实现通用多模态智能的下一代多模态基础模型。
  • 图表
  • 解决问题
    本文旨在解决现有多模态评估基准测试在跟踪LVLM发展方面存在的问题,因此提出了一个全面的基准测试MMT-Bench,以评估LVLM在需要专业知识和刻意视觉识别、定位、推理和规划的大规模多模态任务中的表现。
  • 关键思路
    本文提出了一个全面的基准测试MMT-Bench,包括31,325个来自各种多模态场景的选择题,涵盖了32个核心元任务和162个子任务,以便评估LVLM的性能。
  • 其它亮点
    MMT-Bench基准测试的任务覆盖面广,能够评估LVLM的性能,实验结果表明,MMT-Bench提出的任务对于当前的LVLM来说是具有挑战性的。本文所使用的数据集和代码都已开源,这有助于其他研究人员进一步研究。
  • 相关研究
    最近的相关研究包括:《VisualBERT:一种大规模多模态预训练模型》、《UNITER:一种通用跨模态预训练转换器》、《LXMERT:一种视觉语言多任务学习模型》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论