NEW

Towards Autonomous Mathematics Research

Tony Feng ,

Trieu H. Trinh ,

Garrett Bingham ,

Dawsen Hwang ,

Yuri Chervonyi ,

Junehyuk Jung ,

Joonkyung Lee ,

Carlo Pagano ,

Sang-hyun Kim ,

Federico Pasqualotto ,

Sergei Gukov ,

Jonathan N. Lee ,

Junsu Kim ,

Kaiying Hou ,

Golnaz Ghiasi ,

Yi Tay ,

YaGuang Li ,

Chenkai Kuang ,

Yuan Liu ,

Hanzhao Lin ,

Evan Zheran Liu ,

Nigamaa Nayakanti ,

Xiaomeng Yang ,

Heng-Tze Cheng ,

Demis Hassabis ,

Koray Kavukcuoglu ,

Quoc V. Le ,

Thang Luong

热度 1403

2026年02月10日

简介

基础模型的最新进展已催生出一批推理系统，其能力足以在国际数学奥林匹克竞赛（IMO）中斩获金牌。然而，从应对竞赛级问题迈向专业数学研究，仍需面对浩如烟海的文献，并构建跨越长推理链条的严格证明。本文提出Aletheia——一种端到端以自然语言生成、验证并迭代修订数学解法的研究型智能体。具体而言，Aletheia依托升级版Gemini Deep Think模型处理高难度推理任务；引入一项全新的推理时缩放定律（inference-time scaling law），使其能力显著超越IMO级别问题；并深度融合多种工具，以应对数学研究固有的复杂性。我们全面展示了Aletheia的能力跨度：从IMO级别的题目，延伸至博士阶段的习题训练；尤为突出的是，它已在AI辅助数学研究领域实现若干标志性突破：（a）一篇完全由AI独立完成的研究论文（Feng26），其中人类未参与任何计算环节，成功确定了算术几何中一类被称为“特征权”（eigenweights）的结构常数；（b）另一篇研究论文（LeeSeo26），展现了人机协同模式下对一类称为“独立集”（independent sets）的相互作用粒子系统的界（bounds）所作出的严格证明；（c）一项大规模半自主评估工作（Feng等，2026a），针对Bloom-Erdős猜想数据库中的700个公开未解问题展开系统检验，其中包括AI完全自主解决的四个开放性问题。为帮助公众更清晰地理解AI与数学交叉领域的最新进展，我们建议建立一套量化标准，用以衡量AI辅助成果所达到的自主化程度与创新性水平；同时提出一种全新的“人机协作卡片”（human-AI interaction cards）概念，以增强研究过程的透明度与可追溯性。最后，我们反思了人机协作在数学研究中的角色与前景，并将全部提示词（prompts）及模型输出结果开源发布于以下地址：https://github.com/google-deepmind/superhuman/tree/main/aletheia。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何将当前在数学竞赛（如IMO）中表现出色的AI推理能力，系统性地扩展至真实数学研究场景——包括文献导航、长程证明构造、开放问题求解及可验证的科研产出，同时确保过程透明、可复现、可协作。
关键思路

提出Aletheia——一个端到端自然语言驱动的数学研究代理，融合三重创新：1）增强版Gemini Deep Think支持挑战性推理；2）新型推理时缩放律（inference-time scaling law），突破Olympiad级限制，适配研究级 complexity；3）深度工具调用（如符号引擎、论文检索、定理验证器）实现闭环‘生成-验证-修订’。核心新意在于将‘竞赛智能’升维为‘科研工作流智能’，强调自主性、迭代性与人类协同接口设计。
其它亮点

首次实现全AI生成的正式数学研究论文（Feng26，计算算术几何中eigenweights结构常数）；开创人机共证范式（LeeSeo26，独立集界估计）；完成迄今最大规模AI自主开放问题评估（700个Erdős猜想，含4个全新解）；提出‘人类-AI交互卡’（Human-AI Interaction Cards）提升透明度；全部prompt、模型输出及评估框架开源（GitHub）；实验覆盖从IMO题→博士习题→前沿开放问题三级跃迁。
相关研究

AlphaProof (DeepMind, 2024); LeanDojo + TacticSearch (Yang et al., NeurIPS 2023); Minerva (Lewkowycz et al., ICML 2022); FunSearch (Nature 2023); Llemma (Hendrycks et al., 2023); Math-LLM (Jiang et al., ACL 2024); AutoFormalize (Wu et al., ICLR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问