Towards Robust Mathematical Reasoning

向作者提问

NEW

简介

找到合适的“北极星”指标对于提升基础模型的数学推理能力至关重要，尤其是考虑到现有的评测方法要么过于简单，要么仅关注是否得到正确的简短答案。为了解决这些问题，我们提出了IMO-Bench——一套经过顶尖专家小组审定的高级推理基准测试，专门针对国际数学奥林匹克竞赛（IMO）这一青年数学家最高荣誉赛事的水平。IMO-AnswerBench首先在400道多样化且具有可验证简答的奥赛题目上测试模型的表现。IMO-Proof Bench则是更进一步的证明写作能力评估，涵盖基础和高级IMO水平的问题，并提供详细的评分标准，以支持自动评分。这些基准测试在我们通过Gemini Deep Think（Luong和Lockhart，2025）实现IMO 2025金牌级表现的历史性突破中发挥了关键作用。我们的模型在IMO-AnswerBench上取得了80.0%的成绩，在高级IMO-Proof Bench上达到了65.7%，分别大幅超越了最佳非Gemini模型6.9%和42.4%。我们还证明，基于Gemini推理构建的自动评分系统与人工评分结果高度一致，并由此构建了IMO-GradingBench，包含1000份人工对证明过程的评分，以推动长篇答案自动评估技术的进一步发展。我们希望IMO-Bench能够助力学术界推进稳健的数学推理能力研究，并已将其公开发布于https://imobench.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有评估方法在衡量基础模型的数学推理能力时存在局限性，要么题目过于简单，要么仅关注短答案的正确性，无法有效评估复杂、高水平的数学推理能力，尤其是类似国际数学奥林匹克（IMO）级别的问题求解与证明生成能力。
关键思路

提出IMO-Bench，一个由顶级专家评审的高级数学推理评测套件，包含IMO-AnswerBench（测试短答案准确率）和IMO-ProofBench（评估证明书写能力并提供自动评分支持），通过分层设计更真实地反映模型在高难度数学任务上的综合表现。
其它亮点

Gemini Deep Think在IMO 2025中达到金牌水平，在IMO-AnswerBench上取得80.0%准确率，IMO-ProofBench高级部分达65.7%，分别领先最佳非Gemini模型6.9%和42.4%；构建了与人类评分高度相关的自动评分系统，并发布IMO-GradingBench（含1000份人工评分证明）以推动长文本自动评估研究；数据集和评测标准已开源，项目主页为https://imobench.github.io/。
相关研究

1. DeepMind's AlphaGeometry: Solving geometry problems at IMO level with neuro-symbolic methods 2. OpenAI's o1 series and its performance on MATH and AMC datasets 3. Google's Minerva: Scaling language models for mathematical reasoning 4. Hendrycks et al., Measuring Mathematical Problem Solving Ability, 2021 5. Lewkowycz et al., Solving Quantitative Reasoning Problems with Language Models, NeurIPS 2022

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问