MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

2024年09月04日
  • 简介
    本文介绍了MMMU-Pro,它是Massive Multi-discipline Multimodal Understanding and Reasoning(MMMU)基准测试的一个强健版本。MMM-Pro通过一个基于MMM的三步过程,严格评估多模态模型的真正理解和推理能力:(1)过滤出仅可由文本模型回答的问题,(2)增加候选选项,(3)引入一个仅包含图像的输入设置,其中问题嵌入在图像中。这种设置挑战AI真正实现“同时看到”和“同时阅读”,测试无缝集成视觉和文本信息的基本人类认知技能。结果显示,模型在MMM-Pro上的表现要比在MMM上低得多,跨模型范围从16.8%到26.9%不等。我们探讨了OCR提示和Chain of Thought(CoT)推理的影响,发现OCR提示的影响很小,而CoT通常可以提高性能。MMM-Pro提供了一个更严格的评估工具,密切模拟现实世界的情况,并为未来多模态AI研究提供了有价值的方向。
  • 图表
  • 解决问题
    MMMU-Pro旨在通过三个步骤的过程对多模态模型的真实理解和推理能力进行严格评估。
  • 关键思路
    MMMU-Pro通过过滤文本模型可回答的问题,增加候选选项,以及引入图像中嵌入问题的仅视觉输入设置来挑战模型。
  • 其它亮点
    实验结果表明,MMMU-Pro上的模型性能明显低于MMMU,为16.8%至26.9%,并探讨了OCR提示和CoT推理的影响。该论文提供了一种更严格的评估工具,模拟了真实世界的情景,并为多模态AI的未来研究提供了有价值的方向。
  • 相关研究
    最近的相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论