GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

向作者提问

NEW

简介

我们认为，与源自稀疏标量奖励的策略梯度相比，语言的可解释性往往能为大语言模型（LLMs）提供更丰富的学习媒介。为了验证这一点，我们引入了 GEPA（Genetic-Pareto），这是一种提示优化器，它充分融合了自然语言反思机制，从而通过试错学习高层次的规则。对于任何包含一个或多个大语言模型提示的 AI 系统，GEPA 都可以对其系统级轨迹（例如推理过程、工具调用和工具输出）进行采样，并以自然语言的方式对这些轨迹进行反思，以诊断问题、提出并测试提示更新，并从其自身尝试所形成的帕累托前沿中整合互补的经验。得益于 GEPA 的设计，它往往只需几次 rollout 就能带来显著的质量提升。在四项任务中，GEPA 的平均表现优于 GRPO 达 10%，最高可达 20%，同时使用的 rollout 最多减少了 35 倍。此外，在两个大语言模型上，GEPA 在整体表现上也比领先的提示优化器 MIPROv2 超出 10% 以上，并在代码优化的推理阶段搜索策略中展现出良好的应用前景。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLMs）在强化学习（RL）方法（如Group Relative Policy Optimization, GRPO）中需要大量rollouts（试验）才能适应下游任务的问题。作者假设，语言的可解释性可以提供比稀疏、标量奖励更丰富的学习媒介，并试图通过自然语言反思机制来显著减少所需的rollout数量。
关键思路

论文提出GEPA（Genetic-Pareto），一种基于自然语言反思的提示优化器。GEPA通过采样系统级轨迹（如推理、工具调用和输出），用自然语言进行反思，从而诊断问题、生成和测试提示更新，并从Pareto前沿的尝试中整合互补经验。其核心创新在于利用语言的可解释性来加速提示优化过程，从而大幅减少rollout需求。
其它亮点

1. GEPA在仅需最多35倍更少rollouts的情况下，平均性能优于GRPO达10%，最高达20% 2. 在两个LLM上，GEPA相对于领先提示优化器MIPROv2的性能提升超过10% 3. 展示了作为推理时代码优化搜索策略的潜力 4. 实验设计围绕多个任务展开，强调少量rollout下的性能提升 5. 论文未明确提及是否开源代码，但可能为提示优化和自然语言反思提供了新方向
相关研究

1. MIPROv2: 一种领先的提示优化器，GEPA与其进行了性能比较 2. Group Relative Policy Optimization (GRPO): 基于强化学习的提示优化方法 3. 其他基于RL的LLM适应方法，如PPO（Proximal Policy Optimization）及其在语言生成任务中的应用 4. 基于语言的反思机制研究，如Self-talk、Chain-of-Thought (CoT) 和反思性提示工程 5. 多目标优化与Pareto前沿在机器学习中的应用，例如在模型压缩和集成学习中的相关工作

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问