MathArena: Evaluating LLMs on Uncontaminated Math Competitions

向作者提问

NEW

简介

大型语言模型（LLMs）推理能力的快速发展已在数学基准测试中取得了显著进步。然而，许多常用的评估数据集（例如，2024年的AIME）在线上广泛可得，这使得很难区分模型的真实推理能力和可能的记忆能力。此外，这些基准测试并未评估对许多数学任务至关重要的证明写作能力。为了解决这一问题，我们引入了MathArena，这是一个基于以下关键洞察的新基准：定期举行的数学竞赛提供了一流的高质量、高难度问题，可以用于实时评估LLMs的表现。通过在新问题发布后立即评估模型，我们有效消除了污染风险。利用这一框架，我们在2024年的AIME中发现了明显的污染迹象。尽管如此，在更难的竞赛（如2025年的SMT——发布日期远晚于模型发布时间）上的评估表明，表现最佳的模型仍展现出令人印象深刻的推理能力。MathArena也是第一个针对证明写作能力的基准测试。在2025年的USAMO中，即使是顶级模型得分也低于25%，远远落后于它们在最终答案任务中的表现。到目前为止，我们已经对五个竞赛中的149道题目进行了评估，涵盖了30个模型。作为一个不断发展的基准，MathArena将继续追踪LLMs在新发布的竞赛中的进展，确保对数学推理能力进行严格且与时俱进的评估。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLM）在数学推理能力评估中可能存在的记忆化问题，并进一步探索其在证明写作任务中的表现。这是一个新问题，因为传统数学基准测试无法有效区分模型的真实推理能力和对已有问题的记忆。
关键思路

论文提出了一种名为MathArena的新基准框架，利用实时发布的数学竞赛题目（如SMT 2025和USAMO 2025）来评估LLM的推理能力，从而避免了因数据泄露导致的记忆化问题。此外，MathArena首次引入了对证明写作能力的评估，弥补了现有基准的不足。
其它亮点

1. MathArena通过使用未公开的实时竞赛题目，确保了评估的公正性和挑战性；2. 研究发现AIME 2024存在显著的记忆化问题，而更难的SMT 2025则展示了LLM的强大推理能力；3. 在USAMO 2025的证明写作任务中，顶级模型表现较差（得分低于25%），表明该领域仍有较大提升空间；4. 论文评估了30个模型在五个竞赛中的表现，涵盖149个问题，提供了详尽的数据支持；5. MathArena作为动态更新的基准，将持续追踪LLM在新竞赛中的进展。
相关研究

最近的相关研究包括：1. 'Evaluating Large Language Models on Mathematical Reasoning Benchmarks'，探讨了LLM在数学推理方面的性能；2. 'The Role of Memorization in Mathematical Problem Solving by LLMs'，分析了记忆化对数学问题求解的影响；3. 'Benchmarking Proof-Writing Abilities of AI Systems'，专注于AI系统在形式化证明生成中的表现。这些研究共同推动了对LLM数学能力的深入理解。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问