ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution

向作者提问

NEW

简介

我们推出ShinkaEvolve：一个全新的开源框架，利用大语言模型（LLM）推动科学发现，在性能上达到先进水平，同时实现前所未有的高效性。近年来，扩大LLM推理时计算资源的应用取得了显著进展，推动了通用科学发现的发展。这些方法依赖于进化型智能体架构，将LLM用作变异算子以生成候选解。然而，当前的代码进化方法存在关键局限：样本效率低下，往往需要数千个样本来找到有效解；并且大多为闭源系统，限制了广泛采用和进一步扩展。ShinkaEvolve针对这些问题提出了三项关键创新：一种平衡探索与利用的父代采样技术、用于高效搜索空间探索的代码新颖性拒绝采样方法，以及基于多臂赌博机的LLM集成选择策略。我们在多种不同任务上对ShinkaEvolve进行了评估，结果一致显示出其在样本效率和解的质量方面均有提升。ShinkaEvolve仅用150个样本就发现了新的最先进圆 packing 解法，为AIME数学推理任务设计出高性能的智能体架构，优化了ALE-Bench竞赛编程问题的现有解法，并发现了新型的专家混合模型负载均衡损失函数，揭示了优化策略的新空间。我们的结果表明，ShinkaEvolve具有广泛的适用性和极高的样本效率。通过提供开源访问和成本效益，本研究使各类计算问题中的开放式科学发现变得更加普及和平等。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决当前基于大语言模型（LLM）的代码进化方法在科学发现中样本效率低下且大多闭源的问题。现有方法需要数千次采样才能找到有效解，且缺乏开放性，限制了研究社区的复现与扩展。这是一个随着LLM代理系统兴起而迅速凸显的新问题。
关键思路

ShinkaEvolve提出三个核心创新：1）平衡探索与利用的父代采样策略；2）基于代码新颖性的拒绝采样机制，提升搜索效率；3）基于多臂赌博机的LLM集成选择策略，动态选择最优模型。相比现有工作，其关键新意在于将高效搜索机制与多模型协作结合，在极低样本量下实现高质量解决方案生成。
其它亮点

在多个任务上验证了方法的有效性：仅用150次采样即发现新的最优圆形装箱解；优化AIME数学推理代理架构；改进ALE-Bench编程题解；设计新型MoE负载均衡损失函数。实验设计覆盖数学、编程与机器学习领域，展现了广泛适用性。项目已完全开源，具备成本效益和可扩展性，为开放式科学发现提供了可复现基础。
相关研究

近期相关研究包括：'Tree of Thoughts: Deliberate Problem Solving with Large Language Models'（Yao et al., 2023），'Large Language Models as Optimizers'（Zhang et al., 2023），'Open-Ended Learning in Agent Societies'（Wang et al., 2024），以及'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'（DeepSeek AI, 2024）。这些工作共同推动了LLM驱动的自主发现与优化方向的发展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问