- 简介本文介绍了MMM-Pro,这是大规模多学科多模态理解与推理(MMMU)基准测试的一个强大版本。MMM-Pro通过基于MMM的三步过程,严格评估多模态模型的真正理解和推理能力:(1)过滤出只能由纯文本模型回答的问题,(2)增加候选选项,(3)引入仅包含图像的输入设置,其中问题嵌入在图像中。这种设置挑战AI真正“同时看”和“阅读”,测试无缝集成视觉和文本信息的基本人类认知技能。结果表明,模型在MMM-Pro上的性能比在MMM上低得多,跨模型范围从16.8%到26.9%不等。我们探讨了OCR提示和思维链(CoT)推理的影响,发现OCR提示的影响很小,而CoT通常可以提高性能。MMM-Pro提供了一个更严格的评估工具,紧密模仿现实世界的情境,并为未来多模态AI研究提供有价值的方向。
-
- 图表
- 解决问题MMMU-Pro试图通过三个步骤的过程来评估多模态模型的真正理解和推理能力,从而提供更严格的评估工具。
- 关键思路MMMU-Pro通过过滤仅能通过文本模型回答的问题、扩充候选选项、以及引入仅包含图像的视觉输入设置,挑战AI同时真正“看到”和“阅读”,从而测试无缝集成视觉和文本信息的基本人类认知技能。
- 其它亮点实验结果表明,MMMU-Pro的模型性能比MMMU低得多,范围从16.8%到26.9%。论文还探讨了OCR提示和CoT推理的影响,发现OCR提示对性能影响很小,而CoT通常会提高性能。
- 最近的相关研究包括:1)VisualBERT,2)VilBERT,3)LXMERT,4)Unicoder-VL,5)ViLBERT,6)Visual7W,7)GQA
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流