Towards Autonomous Mathematics Research

2026年02月10日
  • 简介
    基础模型的最新进展已催生出一批推理系统,其能力足以在国际数学奥林匹克竞赛(IMO)中斩获金牌。然而,从应对竞赛级问题迈向专业数学研究,仍需面对浩如烟海的文献,并构建跨越长推理链条的严格证明。本文提出Aletheia——一种端到端以自然语言生成、验证并迭代修订数学解法的研究型智能体。具体而言,Aletheia依托升级版Gemini Deep Think模型处理高难度推理任务;引入一项全新的推理时缩放定律(inference-time scaling law),使其能力显著超越IMO级别问题;并深度融合多种工具,以应对数学研究固有的复杂性。我们全面展示了Aletheia的能力跨度:从IMO级别的题目,延伸至博士阶段的习题训练;尤为突出的是,它已在AI辅助数学研究领域实现若干标志性突破:(a)一篇完全由AI独立完成的研究论文(Feng26),其中人类未参与任何计算环节,成功确定了算术几何中一类被称为“特征权”(eigenweights)的结构常数;(b)另一篇研究论文(LeeSeo26),展现了人机协同模式下对一类称为“独立集”(independent sets)的相互作用粒子系统的界(bounds)所作出的严格证明;(c)一项大规模半自主评估工作(Feng等,2026a),针对Bloom-Erdős猜想数据库中的700个公开未解问题展开系统检验,其中包括AI完全自主解决的四个开放性问题。为帮助公众更清晰地理解AI与数学交叉领域的最新进展,我们建议建立一套量化标准,用以衡量AI辅助成果所达到的自主化程度与创新性水平;同时提出一种全新的“人机协作卡片”(human-AI interaction cards)概念,以增强研究过程的透明度与可追溯性。最后,我们反思了人机协作在数学研究中的角色与前景,并将全部提示词(prompts)及模型输出结果开源发布于以下地址:https://github.com/google-deepmind/superhuman/tree/main/aletheia。
  • 作者讲解
  • 图表
  • 解决问题
    如何将当前在数学竞赛(如IMO)中表现出色的AI推理能力,系统性地扩展至真实数学研究场景——包括文献导航、长程证明构造、开放问题求解及可验证的科研产出,同时确保过程透明、可复现、可协作。
  • 关键思路
    提出Aletheia——一个端到端自然语言驱动的数学研究代理,融合三重创新:1)增强版Gemini Deep Think支持挑战性推理;2)新型推理时缩放律(inference-time scaling law),突破Olympiad级限制,适配研究级 complexity;3)深度工具调用(如符号引擎、论文检索、定理验证器)实现闭环‘生成-验证-修订’。核心新意在于将‘竞赛智能’升维为‘科研工作流智能’,强调自主性、迭代性与人类协同接口设计。
  • 其它亮点
    首次实现全AI生成的正式数学研究论文(Feng26,计算算术几何中eigenweights结构常数);开创人机共证范式(LeeSeo26,独立集界估计);完成迄今最大规模AI自主开放问题评估(700个Erdős猜想,含4个全新解);提出‘人类-AI交互卡’(Human-AI Interaction Cards)提升透明度;全部prompt、模型输出及评估框架开源(GitHub);实验覆盖从IMO题→博士习题→前沿开放问题三级跃迁。
  • 相关研究
    AlphaProof (DeepMind, 2024); LeanDojo + TacticSearch (Yang et al., NeurIPS 2023); Minerva (Lewkowycz et al., ICML 2022); FunSearch (Nature 2023); Llemma (Hendrycks et al., 2023); Math-LLM (Jiang et al., ACL 2024); AutoFormalize (Wu et al., ICLR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问