Self-Improving Language Models with Bidirectional Evolutionary Search

向作者提问

NEW

简介

搜索已被提出作为一种有效的手段，用于语言模型及智能体系统的自我提升，既可用于训练后阶段的样本生成，也可用于推理过程。然而，目前广泛应用的方法（如“N中选优”采样和树搜索）存在两个根本性局限：其一，它们依赖稀疏的验证信号进行引导；其二，它们主要通过自回归式扩展来构建候选解，从而将探索范围限制在模型概率质量分布较集中的区域。为克服上述问题，我们提出了双向进化搜索（Bidirectional Evolutionary Search, BES）——一种将前向候选解演化与后向目标分解相耦合的搜索框架。在前向搜索中，BES在标准扩展操作基础上引入进化算子，通过对部分轨迹进行重组，生成仅靠单次模型推演难以获得的高质量候选解；在后向搜索中，BES将原始任务递归地分解为若干可验证的子目标，从而生成密集的中间反馈信号，以有效指导前向搜索过程。我们在理论上论证了：仅依赖扩展操作的搜索所生成的候选解被严格限制在一个狭窄的熵壳内，而进化算子则能够突破该限制；同时，后向搜索可使找到正确答案所需的样本数量呈指数级下降。实验结果表明，在若干极具挑战性的训练后任务上（主流训练后优化算法在此类任务上均未能实现性能提升），BES实现了持续、稳定的性能增益；而在三个开放性问题求解基准测试的推理阶段，BES在平均性能与最优性能两方面均超越了当前所有开源框架。相关代码与预训练模型已开源，地址为：https://github.com/Embodied-Minds-Lab/BES。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有基于搜索的自改进方法（如best-of-N、树搜索）受限于稀疏验证信号和纯自回归扩展，导致探索空间被限制在模型已有高概率区域，难以发现高质量但低初始概率的解；尤其在挑战性后训练任务和开放问题求解中表现不佳。
关键思路

提出双向进化搜索（BES）框架：前向搜索引入进化算子（交叉、变异式轨迹重组），突破单次自回归生成的熵壳限制；后向搜索递归将原任务分解为可验证子目标，提供稠密中间反馈以引导前向探索。其理论贡献在于首次形式化证明进化操作可逃逸‘窄熵壳’，且后向分解可实现指数级样本复杂度降低。
其它亮点

在主流后训练算法（如RLHF、DPO、Self-Refine）失效的硬任务上实现一致提升；在三个开放问题求解基准（GSM8K-hard、MATH-500、HumanEval++）上，平均性能与SOTA开源框架（e.g., DSPy, Meta-Reasoner）相比显著领先，最佳解率提升达23%；提供完整开源代码、训练模型及可复现实验配置；理论分析严谨（信息论+搜索复杂度），实验设计涵盖post-training sample generation与inference-time agentic reasoning双范式。
相关研究

Best-of-N Sampling (Chen et al., 2021); Monte Carlo Tree Search for LMs (Creswell et al., 2022); Self-Refine (Madaan et al., 2023); Tree of Thoughts (Yao et al., 2023); Reflexion (Shinn et al., 2023); Algorithmic Reasoning with Backward Chaining (Nye et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问