Gödel Test: Can Large Language Models Solve Easy Conjectures?

向作者提问

NEW

简介

最近，前沿人工智能模型实验室发布的一些成果突显了大语言模型在高中和本科数学竞赛中的出色表现。然而，这些模型是否能够解决更高级数学领域中新的、简单的猜想，目前尚不清楚。我们提出了“哥德尔测试”（Gödel Test）：评估一个模型能否为此前未解的极简单猜想生成正确的证明。为此，我们研究了GPT-5在组合优化领域的五个猜想上的表现。针对每个问题，我们提供了一至两篇提出该猜想的原始论文，但并未向模型透露我们自己的猜想内容，随后我们详细评估了模型的推理过程。在三个较容易的问题上，GPT-5生成了几乎正确的解答；对于问题2，它甚至推导出了一种不同的近似保证，经验证后反而推翻了我们的猜想，同时给出了一个有效的解决方案。在问题4上，模型失败了，因为该问题需要综合两篇论文的结果才能解决。在问题5上——这是一个更具挑战性且尚未被验证猜想的案例——GPT-5提出了与我们设想相同的算法，但在分析过程中出现错误，表明其证明难度超出预期。尽管我们的样本量较小，但结果表明，模型在常规推理方面已取得实质性进展，偶尔展现出原创性思维，但在需要跨论文综合信息时仍存在明显局限。GPT-5或许标志着迈向最终通过“哥德尔测试”的前沿模型所迈出的早期一步。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文探讨大型语言模型（如GPT-5）是否能够解决尚未被证明的、简单的数学新猜想，特别是在组合优化等较高级数学领域中的表现。这是一个相对较新的问题，旨在评估AI在创造性数学推理方面的能力，超越已有题库或竞赛题目的复现能力。
关键思路

提出“哥德尔测试”（Gödel Test）作为评估AI模型在生成未解简单猜想的正确证明方面能力的标准。通过向GPT-5提供五个来自组合优化领域的未解猜想及其源论文，观察其能否独立推导出有效证明，从而衡量其数学原创推理能力。关键新意在于从‘解已知题’转向‘创新增益于未知问题’的评估范式。
其它亮点

实验设计严谨：针对五个不同难度的未解猜想，仅提供背景文献而不透露作者猜想，评估模型推理过程。GPT-5在三个较易问题上接近正确解答；在问题2中甚至发现原猜想错误并给出新的有效近似保证；问题4因需跨论文综合失败；问题5中提出与人类相同的算法但分析失败。结果体现模型具备一定原创性与推理能力，但在跨文献合成和复杂分析上仍有局限。无提及开源代码或数据集发布，未来可深入研究模型在形式化数学与交互式定理证明中的应用。
相关研究

1. 'DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models' 2. 'AlphaGeometry: Unlocking Geometric Theorem Proving with Deep Learning' 3. 'Formalized Mathematics and the Proof Assistant Revolution' 4. 'Language Models as Zero-Shot Planners: Solving Math Word Problems with GPT-4', arXiv 2023 5. 'Can Large Language Models Prove Theorems? Evaluating LLMs on the MATH Benchmark'

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问