Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents

简介

当今的人工智能系统具有人类设计的固定架构，无法自主且持续地提升自身性能。人工智能的发展本身可以实现自动化，如果能够安全地实现这一点，将加速人工智能的进步，并让我们更早享受到其带来的好处。元学习（Meta-learning）可以自动化发现新的算法，但受限于一阶改进以及需要人为设计合适的搜索空间。哥德尔机（Gödel machine）提出了一种理论上的替代方案：一种能够反复以可证明有益的方式修改自身的自提升人工智能。然而，在实践中，证明大多数修改总体上是有益的是不可能的。我们引入了达尔文哥德尔机（Darwin Gödel Machine, DGM），这是一种自提升系统，它通过迭代修改自身代码（从而也提升其修改自身代码库的能力），并使用编程基准对每次修改进行经验验证。受达尔文进化论和开放式探索研究的启发，DGM维护了一个生成的编程代理（coding agents）档案库。它通过从档案库中采样一个代理，并利用基础模型（foundation model）创建该采样代理的新颖变体来扩展档案库。这种开放式的探索形成了一棵不断增长的高质量代理树，允许在搜索空间中并行探索许多不同的路径。实证结果表明，DGM自动提升了其编程能力（例如，更好的代码编辑工具、长上下文窗口管理、同行评审机制），将SWE-bench的性能从20.0%提升至50.0%，Polyglot的性能从14.2%提升至30.7%。此外，与没有自提升或开放式探索的基线方法相比，DGM显著优于后者。所有实验均采取了安全措施（例如，沙盒隔离、人工监督）。DGM是迈向自提升人工智能的重要一步，能够在创新的道路上自行收集关键步骤，开启无尽的创新可能。
图表
解决问题

论文试图解决AI系统无法自主、持续改进自身的问题。现有的AI架构由人类设计且固定不变，而通过自动化AI开发过程，可以加速AI技术的进步并更快实现其潜在价值。这是一个长期存在的问题，但本文提出了一种具体的技术框架来尝试解决它。
关键思路

论文引入了达尔文哥德尔机（DGM），一种基于迭代自我修改和经验验证的自改进系统。与传统的元学习方法不同，DGM不仅依赖于第一阶改进或预定义搜索空间，还结合了进化算法的思想，通过生成多样化的代码代理并选择性保留性能更优的版本来实现开放式的探索。此外，DGM利用基础模型生成新的代码变体，并通过编码基准测试来评估每次更改的有效性，从而实现自动优化。
其它亮点

实验表明，DGM显著提升了代码生成能力，在SWE-bench上的表现从20.0%提高到50.0%，在Polyglot上从14.2%提高到30.7%。这些结果远超没有自改进机制的基线模型。研究还强调了安全性措施（如沙箱环境和人工监督）以确保系统的可控性。虽然目前尚未提及开源代码，但该方法为未来开放性探索和自改进AI的研究提供了新方向。
相关研究

相关的研究包括：1) 元学习领域的研究，例如《Learning to Learn by Gradient Descent by Gradient Descent》；2) 开放性探索的研究，例如《POET: Endlessly Generating Increasingly Complex and Diverse Learning Environments》；3) 自改进AI理论，例如Schmidhuber提出的原始哥德尔机概念《Gödel Machines: Fully Self-referential Optimal Universal Self-improvers》；4) 大规模语言模型在代码生成中的应用，例如《CodeGen: An Empirical Study of Iterated Program Synthesis from Natural Language》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论