- 简介我们推出ShinkaEvolve:一个全新的开源框架,利用大语言模型(LLM)推动科学发现,在性能上达到先进水平,同时实现前所未有的高效性。近年来,扩大LLM推理时计算资源的应用取得了显著进展,推动了通用科学发现的发展。这些方法依赖于进化型智能体架构,将LLM用作变异算子以生成候选解。然而,当前的代码进化方法存在关键局限:样本效率低下,往往需要数千个样本来找到有效解;并且大多为闭源系统,限制了广泛采用和进一步扩展。ShinkaEvolve针对这些问题提出了三项关键创新:一种平衡探索与利用的父代采样技术、用于高效搜索空间探索的代码新颖性拒绝采样方法,以及基于多臂赌博机的LLM集成选择策略。我们在多种不同任务上对ShinkaEvolve进行了评估,结果一致显示出其在样本效率和解的质量方面均有提升。ShinkaEvolve仅用150个样本就发现了新的最先进圆 packing 解法,为AIME数学推理任务设计出高性能的智能体架构,优化了ALE-Bench竞赛编程问题的现有解法,并发现了新型的专家混合模型负载均衡损失函数,揭示了优化策略的新空间。我们的结果表明,ShinkaEvolve具有广泛的适用性和极高的样本效率。通过提供开源访问和成本效益,本研究使各类计算问题中的开放式科学发现变得更加普及和平等。
-
- 图表
- 解决问题论文试图解决当前基于大语言模型(LLM)的代码进化方法在科学发现中样本效率低下且大多闭源的问题。现有方法需要数千次采样才能找到有效解,且缺乏开放性,限制了研究社区的复现与扩展。这是一个随着LLM代理系统兴起而迅速凸显的新问题。
- 关键思路ShinkaEvolve提出三个核心创新:1)平衡探索与利用的父代采样策略;2)基于代码新颖性的拒绝采样机制,提升搜索效率;3)基于多臂赌博机的LLM集成选择策略,动态选择最优模型。相比现有工作,其关键新意在于将高效搜索机制与多模型协作结合,在极低样本量下实现高质量解决方案生成。
- 其它亮点在多个任务上验证了方法的有效性:仅用150次采样即发现新的最优圆形装箱解;优化AIME数学推理代理架构;改进ALE-Bench编程题解;设计新型MoE负载均衡损失函数。实验设计覆盖数学、编程与机器学习领域,展现了广泛适用性。项目已完全开源,具备成本效益和可扩展性,为开放式科学发现提供了可复现基础。
- 近期相关研究包括:'Tree of Thoughts: Deliberate Problem Solving with Large Language Models'(Yao et al., 2023),'Large Language Models as Optimizers'(Zhang et al., 2023),'Open-Ended Learning in Agent Societies'(Wang et al., 2024),以及'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'(DeepSeek AI, 2024)。这些工作共同推动了LLM驱动的自主发现与优化方向的发展。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流