视觉数学推理作为一种基本的视觉推理能力,受到了大型多模型(LMMs)社区的广泛关注。现有的基准测试,如MathVista和MathVerse,更关注结果导向的表现,但忽略了知识获取和泛化的基本原则。受到类人数学推理的启发,我们介绍了WE-MATH,这是第一个专门设计用于探索问题解决原则而非端到端性能的基准测试。我们精心收集和分类了6.5K个视觉数学问题,涵盖了67个层次化的知识概念和五层知识粒度。我们根据所需的知识概念将复合问题分解为子问题,并引入了一种新的四维度指标,即知识不足(IK)、泛化不足(IG)、完全掌握(CM)和机械记忆(RM),以层次化评估LMMs推理过程中固有的问题。通过WE-MATH,我们对现有的LMMs在视觉数学推理方面进行了彻底的评估,并揭示了解决步骤与问题特定表现之间的负相关关系。我们确认LMMs的IK问题可以通过知识增强策略有效改善。更值得注意的是,GPT-4o的主要挑战已经从IK显著转向IG,将其确立为第一个向知识泛化阶段前进的LMM。相比之下,其他LMMs明显倾向于机械记忆-他们可以正确解决涉及多个知识概念的复合问题,但无法回答子问题。我们期待WE-MATH将为LMMs在视觉数学推理方面的进步开辟新的道路。WE-MATH数据和评估代码可在https://github.com/We-Math/We-Math上获得。
提问交流