We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

简介

视觉数学推理作为一种基本的视觉推理能力，受到了大型多模型(LMMs)社区的广泛关注。现有的基准测试，如MathVista和MathVerse，更关注结果导向的表现，但忽略了知识获取和泛化的基本原则。受到类人数学推理的启发，我们介绍了WE-MATH，这是第一个专门设计用于探索问题解决原则而非端到端性能的基准测试。我们精心收集和分类了6.5K个视觉数学问题，涵盖了67个层次化的知识概念和五层知识粒度。我们根据所需的知识概念将复合问题分解为子问题，并引入了一种新的四维度指标，即知识不足(IK)、泛化不足(IG)、完全掌握(CM)和机械记忆(RM)，以层次化评估LMMs推理过程中固有的问题。通过WE-MATH，我们对现有的LMMs在视觉数学推理方面进行了彻底的评估，并揭示了解决步骤与问题特定表现之间的负相关关系。我们确认LMMs的IK问题可以通过知识增强策略有效改善。更值得注意的是，GPT-4o的主要挑战已经从IK显著转向IG，将其确立为第一个向知识泛化阶段前进的LMM。相比之下，其他LMMs明显倾向于机械记忆-他们可以正确解决涉及多个知识概念的复合问题，但无法回答子问题。我们期待WE-MATH将为LMMs在视觉数学推理方面的进步开辟新的道路。WE-MATH数据和评估代码可在https://github.com/We-Math/We-Math上获得。
图表
解决问题

解决问题：该论文旨在设计一个针对视觉数学推理的基准测试集WE-MATH，以探索大型多模型模型（LMMs）在数学推理中的问题解决原则和泛化能力。
关键思路

关键思路：WE-MATH基准测试集包含6.5K个视觉数学问题，覆盖67个层次化知识概念和五个层次的知识粒度。论文提出了四维度的评估指标：IK、IG、CM和RM，以评估LMMs推理过程中的内在问题。通过WE-MATH测试，揭示了LMMs的IK问题和GPT-4o的IG问题，以及其他LMMs的机械记忆倾向。
其它亮点

其他亮点：WE-MATH基准测试集是第一个专门针对数学推理问题解决原则和泛化能力的测试集。论文通过实验评估了现有LMMs在视觉数学推理中的表现，并提出知识增强策略来解决IK问题。该论文还开放了WE-MATH数据和评估代码。
相关研究

相关研究：在数学推理领域，已有一些基准测试集，如MathVista和MathVerse，但它们更注重结果导向的表现，而忽略了知识获取和泛化的基本原则。

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

评论