- 简介我们认为,与源自稀疏标量奖励的策略梯度相比,语言的可解释性往往能为大语言模型(LLMs)提供更丰富的学习媒介。为了验证这一点,我们引入了 GEPA(Genetic-Pareto),这是一种提示优化器,它充分融合了自然语言反思机制,从而通过试错学习高层次的规则。对于任何包含一个或多个大语言模型提示的 AI 系统,GEPA 都可以对其系统级轨迹(例如推理过程、工具调用和工具输出)进行采样,并以自然语言的方式对这些轨迹进行反思,以诊断问题、提出并测试提示更新,并从其自身尝试所形成的帕累托前沿中整合互补的经验。得益于 GEPA 的设计,它往往只需几次 rollout 就能带来显著的质量提升。在四项任务中,GEPA 的平均表现优于 GRPO 达 10%,最高可达 20%,同时使用的 rollout 最多减少了 35 倍。此外,在两个大语言模型上,GEPA 在整体表现上也比领先的提示优化器 MIPROv2 超出 10% 以上,并在代码优化的推理阶段搜索策略中展现出良好的应用前景。
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)在强化学习(RL)方法(如Group Relative Policy Optimization, GRPO)中需要大量rollouts(试验)才能适应下游任务的问题。作者假设,语言的可解释性可以提供比稀疏、标量奖励更丰富的学习媒介,并试图通过自然语言反思机制来显著减少所需的rollout数量。
- 关键思路论文提出GEPA(Genetic-Pareto),一种基于自然语言反思的提示优化器。GEPA通过采样系统级轨迹(如推理、工具调用和输出),用自然语言进行反思,从而诊断问题、生成和测试提示更新,并从Pareto前沿的尝试中整合互补经验。其核心创新在于利用语言的可解释性来加速提示优化过程,从而大幅减少rollout需求。
- 其它亮点1. GEPA在仅需最多35倍更少rollouts的情况下,平均性能优于GRPO达10%,最高达20% 2. 在两个LLM上,GEPA相对于领先提示优化器MIPROv2的性能提升超过10% 3. 展示了作为推理时代码优化搜索策略的潜力 4. 实验设计围绕多个任务展开,强调少量rollout下的性能提升 5. 论文未明确提及是否开源代码,但可能为提示优化和自然语言反思提供了新方向
- 1. MIPROv2: 一种领先的提示优化器,GEPA与其进行了性能比较 2. Group Relative Policy Optimization (GRPO): 基于强化学习的提示优化方法 3. 其他基于RL的LLM适应方法,如PPO(Proximal Policy Optimization)及其在语言生成任务中的应用 4. 基于语言的反思机制研究,如Self-talk、Chain-of-Thought (CoT) 和反思性提示工程 5. 多目标优化与Pareto前沿在机器学习中的应用,例如在模型压缩和集成学习中的相关工作
沙发等你来抢
去评论
评论
沙发等你来抢