MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

简介

本文介绍了MMM-Pro，这是大规模多学科多模态理解与推理（MMMU）基准测试的一个强大版本。MMM-Pro通过基于MMM的三步过程，严格评估多模态模型的真正理解和推理能力：（1）过滤出只能由纯文本模型回答的问题，（2）增加候选选项，（3）引入仅包含图像的输入设置，其中问题嵌入在图像中。这种设置挑战AI真正“同时看”和“阅读”，测试无缝集成视觉和文本信息的基本人类认知技能。结果表明，模型在MMM-Pro上的性能比在MMM上低得多，跨模型范围从16.8％到26.9％不等。我们探讨了OCR提示和思维链（CoT）推理的影响，发现OCR提示的影响很小，而CoT通常可以提高性能。MMM-Pro提供了一个更严格的评估工具，紧密模仿现实世界的情境，并为未来多模态AI研究提供有价值的方向。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

MMMU-Pro试图通过三个步骤的过程来评估多模态模型的真正理解和推理能力，从而提供更严格的评估工具。
关键思路

MMMU-Pro通过过滤仅能通过文本模型回答的问题、扩充候选选项、以及引入仅包含图像的视觉输入设置，挑战AI同时真正“看到”和“阅读”，从而测试无缝集成视觉和文本信息的基本人类认知技能。
其它亮点

实验结果表明，MMMU-Pro的模型性能比MMMU低得多，范围从16.8％到26.9％。论文还探讨了OCR提示和CoT推理的影响，发现OCR提示对性能影响很小，而CoT通常会提高性能。
相关研究

最近的相关研究包括：1）VisualBERT，2）VilBERT，3）LXMERT，4）Unicoder-VL，5）ViLBERT，6）Visual7W，7）GQA

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

提问交流

提问交流