MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

2024年09月04日
  • 简介
    本文介绍了MMM-Pro,这是大规模多学科多模态理解与推理(MMMU)基准测试的一个强大版本。MMM-Pro通过基于MMM的三步过程,严格评估多模态模型的真正理解和推理能力:(1)过滤出只能由纯文本模型回答的问题,(2)增加候选选项,(3)引入仅包含图像的输入设置,其中问题嵌入在图像中。这种设置挑战AI真正“同时看”和“阅读”,测试无缝集成视觉和文本信息的基本人类认知技能。结果表明,模型在MMM-Pro上的性能比在MMM上低得多,跨模型范围从16.8%到26.9%不等。我们探讨了OCR提示和思维链(CoT)推理的影响,发现OCR提示的影响很小,而CoT通常可以提高性能。MMM-Pro提供了一个更严格的评估工具,紧密模仿现实世界的情境,并为未来多模态AI研究提供有价值的方向。
  • 作者讲解·1
  • 图表
  • 解决问题
    MMMU-Pro试图通过三个步骤的过程来评估多模态模型的真正理解和推理能力,从而提供更严格的评估工具。
  • 关键思路
    MMMU-Pro通过过滤仅能通过文本模型回答的问题、扩充候选选项、以及引入仅包含图像的视觉输入设置,挑战AI同时真正“看到”和“阅读”,从而测试无缝集成视觉和文本信息的基本人类认知技能。
  • 其它亮点
    实验结果表明,MMMU-Pro的模型性能比MMMU低得多,范围从16.8%到26.9%。论文还探讨了OCR提示和CoT推理的影响,发现OCR提示对性能影响很小,而CoT通常会提高性能。
  • 相关研究
    最近的相关研究包括:1)VisualBERT,2)VilBERT,3)LXMERT,4)Unicoder-VL,5)ViLBERT,6)Visual7W,7)GQA
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问