大型语言模型(LLM)的最新进展为加速科学研究开辟了新途径。虽然这些模型在辅助处理常规任务方面的能力日益增强,但它们在推动创新性、专家级数学发现方面的能力仍不甚明了。本文展示了一系列案例研究,阐述了研究人员如何成功地与先进的人工智能模型(特别是基于谷歌Gemini平台的模型,尤其是Gemini Deep Think及其高级变体)合作,以解决开放性问题、反驳猜想,并在理论计算机科学(theoretical computer science以及经济学(economics优化(optimization物理学(physics等其他领域生成新的证明。基于这些经验,我们提炼出理论研究中人机(human-AI协作的常用技巧,例如迭代改进、问题分解和跨学科知识迁移(cross-disciplinary knowledge transfer。虽然我们的大部分成果都源于这种交互式对话方法,但我们也重点介绍了一些超越标准聊天界面的具体案例。这些应用包括将该模型部署为严格的对抗性审查器,以检测现有证明中的细微缺陷;以及将其嵌入“神经符号”循环中,该循环能够自主编写和执行代码,以验证复杂的推导过程。这些例子共同凸显了人工智能的潜力,它不仅可以作为自动化工具,更可以成为科学发现创造性过程中多才多艺、真正可靠的合作伙伴。

论文:Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

单位:谷歌研究院、卡内基梅隆大学、普渡大学、南加州大学、哈佛大学、麻省理工学院、伊利诺伊理工学院、罗格斯大学、密歇根大学、加州大学欧文分校、德克萨斯农工大学、东京国立信息学研究所和东京大学、洛桑联邦理工学院、马里兰大学帕克分校、南洋理工大学、巴伊兰大学

发布日期:2026年1月

下载论文https://t.zsxq.com/tunRB

请索引第73篇论文



1 引言 (Introduction)


人工智能与科学工作流的结合传统上侧重于数据分析、模拟和常规自动化。然而,具备增强推理能力的前沿大语言模型(LLMs)的涌现,预示着 AI 系统正在向有效科研协作伙伴转变。它们能够参与科研的核心智力任务:构建假设、设计算法、开发解决开放性问题的新技术以及证明定理。

本文记录了一系列独立实验,研究人员利用先进 AI 模型解决了各自领域中特定的、通常是长期悬而未决的开放性问题。研究结果涵盖了从解决信息论和次模最大化(submodular maximization)中的猜想,到推导宇宙弦的精确解析谱以及改进图算法的界限。

主要贡献: 鉴于所涉及领域和案例研究的广泛性,我们强调本文的三项主要贡献:

  1. 展示混合模型的效能:我们展示了“人机混合模型”在解决跨学科科学和数学领域中真实且高度复杂的开放性问题方面的潜力。

  2. 推动前沿科学发展:我们对实际科学问题做出了具体的、显著的贡献,产出了如解决猜想、改进算法界限以及识别文献中关键缺陷等新成果。

  3. 展示科学发现的未来模式:我们阐释了未来科研实践的图景。通过详述新型工作流、人机协作技术及交互式问题解决策略,我们揭示了未来几年科学研究可能采取的实际形式。

至关重要的是,这些并非假设场景,而是 AI 在推动前沿研究中发挥关键作用的真实案例。通过分析这些多元化的案例研究,我们识别出了在这种理论研究中利用 AI 的重复模式有效策略。这些结果的意义在于这些技术的普适性,以及通过调用公开可用的 Gemini 模型即可应用的通用范式(common recipes)。其中包括:

  • 智能体执行循环 (Agentic Execution Loops):超越手动聊天界面,模型可被嵌入自动化的“神经符号”流水线中。在此设置下,AI 提议数学解法,编写代码进行数值验证,并自动吸纳执行错误(如 Python 回溯信息)以进行自我修正,从而自主剪枝无效的数学分支(见 6.1 节)。

  • 深度技术评审与缺陷检测:除了建设性任务外,AI 模型还可充当对抗性审稿人。我们展示了一个案例:在迭代自我修正协议的引导下,某 LLM 识别出近期一篇声称取得重大突破(从 LWE 实现 SNARGs)的密码学预印本 [53] 中存在致命缺陷——即定义与构造之间存在微小的不一致,而这在最初的人工评审中被忽略了。

  • 深度文献综合与关联:AI 模型能够识别不同领域之间隐蔽的联系(例如,将斯坦纳树与 Kirszbraun 扩展定理联系起来),这些联系即便是人类专家也可能忽略。

  • 反例生成:模型擅长构建反例以反驳看似合理的猜想,从而避免研究人员陷入死胡同。

  • 算法见解与优化:在算法研究中,AI 可以提出新型数据结构或分析技术(例如,针对不同范数调整四叉树)以优化时间复杂度界限。

  • 自动化证明生成与验证:对于定义良好的子问题,AI 可以生成严谨的证明(有时仅需极少的人工干预),或验证复杂的手动推导。

  • 交互式精炼 (Interactive Refinement):一个反复出现的主题是迭代式的“对话”,研究人员引导模型、纠正错误并完善问题描述,这通常会促成最终解决方案。

  • 启发式方法的理论证明:AI 模型通过为启发式方法推导严谨的证明,弥合了经验成功与理论之间的鸿沟,例如表征特定架构选择(如自正则化 Gumbel Sigmoid)引起的隐式正则化(implicit regularization)



1.1 模型描述 (Model Description)


除非在证言中另有说明,本研究使用的模型是谷歌内部的先进版本 Gemini Deep Think [74] —— 这是一个针对复杂问题增强了推理能力的模型,融合了我们最新的研究技术,包括并行思考(parallel thinking),即同时探索多个证明分支。类似的模型近期也被应用于国际数学奥林匹克竞赛(IMO),达到了金牌标准 [74]。这种设置使模型能够在给出最终答案之前,同时探索并结合多种可能的解决方案,而非追求单一的线性思维链。这种方法与之前证明**树搜索方法(tree-based search methods)**在数学推理中有效性的研究相一致 [45]。

为了充分发挥 Deep Think 的推理能力,我们额外采用新型强化学习技术对该版本的 Gemini 进行了训练,这些技术能够利用更多的多步推理、问题解决和定理证明数据。我们还为 Gemini 提供了精心策划的高质量数学题解语料库 [74]。此外,我们在输出端增加了一条长线交互验证调用链,以增加推理深度并提供大量迭代验证,并辅以人类专家的校验。

1.2 相关工作 (Related Work)


大语言模型(LLMs)的最新进展激发了人们对其加速科学发现潜力的浓厚兴趣。若干同期工作探索了 AI 在辅助数学和理论研究方面的能力。在此,我们将本文的贡献置于两个特别相关的研究背景下:OpenAI 对 GPT-5 科学能力的调查 [17],以及 Nagda 等人利用 AlphaEvolve 研究逼近硬度(hardness of approximation)的工作 [77]。

与 OpenAI GPT-5 实验的对比:OpenAI 的同期工作 [17] 记录了一系列案例研究,展示了 GPT-5 在生物、物理及数学等领域的科研贡献能力。虽然我们与他们的工作都强调了前沿模型作为研究助手的潜力,但在范围和重点上存在差异。我们的工作更侧重于理论计算机科学 (TCS),涵盖了广泛的子领域,包括算法博弈论、近似算法、复杂度理论、密码学、图论、信息论、最优化、在线算法、流算法和查询复杂度。

此外,Erdős 问题数据库近期的动态展示了 AI 在解决开放数学猜想中日益增长的作用。值得注意的是,关于阶乘整除性的 Erdős 问题 #728 由 AI 系统(Aristotle)自主解决,其中 GPT-5 在生成证明策略及后续阐述中发挥了关键作用 [17]。这一成就得到了陶哲轩(Terence Tao)及更广泛社区的验证,凸显了这些模型不仅具备解决问题的能力,还能快速迭代并改进数学写作。其他问题如 #729#401 等也见证了 AI 辅助的进展或完全解决,进一步证实了 AI 加速数学发现的趋势。我们的工作通过提供详细的方法论和 TCS 领域更广泛的示例,对这些发现进行了补充,表明这些能力并非孤立事件,而是研究范式更大规模转型的一部分。

与 AlphaEvolve 研究逼近硬度的对比:Nagda、Raghavan 和 Thakurta [77] 在 MAX-CUT、MAX-k-CUT 和 TSP 的逼近硬度方面取得了显著成果。其主要方法依赖于 AlphaEvolve [79],这是一种专门的演化算法,利用 LLM 作为变异算子来搜索优化特定目标函数(如不可近似比)的组合结构(gadgets)。

相比之下,我们的工作侧重于通用 LLM(特别是 Gemini 及其推理增强变体 Deep Think)作为对话式研究伙伴的效用。虽然 AlphaEvolve 是解决具有明确目标函数的搜索问题的强大工具,但我们的案例研究表明,通用模型在“目标”不那么明确的广泛智力任务中同样有效,例如生成证明思路、识别来自不同领域的相关定理或交互式地精炼定义。

例如,我们对宇宙弦解析谱的推导(6.1 节)涉及对推导策略和数学概念的树搜索,而非对数值的直接优化。同样,“单纯形是图嵌入的最佳选择”猜想的解决(4.2 节)依赖于概念桥接(将斯坦纳树与 Lipschitz 扩展联系起来),而非组合搜索。因此,我们的工作是对 [77] 的补充,证明了标准前沿模型在无需专门演化封装的情况下,亦能通过对话和推理推动理论研究的进展。

同期工作:近期的一项工作 [49] 利用 AI 辅助方法论实现了大规模的数学发现。本文与其在展示 AI 作为理论研究协作伙伴的潜力方面保持一致,但我们提供了一套独特的案例研究,并聚焦于特定的 TCS 领域。此外,我们也注意到独立研究 [90, 92] 进一步丰富了 AI 在数学和科学领域的文献库。

在 Feng 等人的同期独立工作中 [37, 38],他们利用类似技术研究了类似的 Gemini 模型,尽管其重点在于纯数学问题,而我们的重点主要在于其他学科,如理论计算机科学的多个领域,以及经济学和物理学。

路线图:本文余下部分安排如下:第 2 节综合了从案例研究中得出的通用技术和方法论;随后的各节提供了每次协作的详细且广泛的证言,大致按 AI 在协作中扮演的主要角色分类;最后,第 2.8 节讨论了对理论研究未来的更广泛影响。


微信群

内容中包含的图片若涉及版权问题,请及时与我们联系删除