POLCA: Stochastic Generative Optimization with LLM

2026年03月16日
  • 简介
    针对复杂系统(从大语言模型提示词到多轮对话智能体)的优化,传统方法通常依赖耗时费力的人工反复调试。本文将这一挑战形式化为一种随机生成式优化问题:其中,一个生成式语言模型作为优化器,在数值奖励信号与文本反馈的联合引导下,自主探索并发现最优系统配置。为此,我们提出“基于优先级的局部上下文聚合优化框架”(POLCA),这是一种可扩展的优化框架,专为应对优化过程中的各类随机性而设计——包括反馈噪声、小批量采样以及系统行为本身的随机性——同时还能有效管控解空间无约束扩张所带来的挑战。POLCA 通过维护一个优先队列,系统性地追踪候选解及其历史评估记录,从而在探索与利用之间实现精细平衡。为进一步提升优化效率,我们在框架中集成了两项关键技术:其一是 $\varepsilon$-Net 机制,用于维持参数空间的多样性;其二是基于大语言模型的摘要器(LLM Summarizer),用以在历史试验中开展元学习,提炼跨轮次的共性规律与经验知识。我们在理论上严格证明了 POLCA 在存在随机性条件下仍能收敛至近似最优的候选解。我们在多个多样化基准任务上对 POLCA 进行了全面评估,涵盖 $τ$-bench、HotpotQA(智能体优化)、VeriBench(代码翻译)以及 KernelBench(CUDA 核函数生成)。实验结果表明,POLCA 在鲁棒性、样本效率与时间效率三方面均表现出色,且在确定性与随机性两类问题上均持续超越当前最先进的优化算法。本工作的全部源代码已开源,地址为:https://github.com/rlx-lab/POLCA。
  • 作者讲解
  • 图表
  • 解决问题
    传统复杂系统(如LLM提示工程、多轮智能体)优化依赖人工反复试错,效率低、不可扩展;论文将其形式化为带噪声反馈的随机生成式优化问题——即用语言模型作为'生成式优化器',在开放、无约束的解空间中基于稀疏数值奖励和文本反馈自动发现最优配置。这是一个新问题:将黑箱系统优化重构为可学习、可泛化的元优化任务,而非针对特定架构的手工调优。
  • 关键思路
    提出POLCA框架:以优先队列显式建模探索-利用权衡;引入ε-Net机制强制参数多样性防止早熟收敛;设计LLM Summarizer实现跨试验的文本级元学习(如归纳‘为何该prompt在HotpotQA上失败’);理论证明其在强随机性(采样噪声、环境波动、反馈偏差)下仍能收敛至近优解——关键新意在于将LLM从‘被优化对象’升维为‘优化主体’,并用轻量结构保障其在开放解空间中的稳健性。
  • 其它亮点
    在τ-bench(提示优化)、HotpotQA(多跳推理agent)、VeriBench(代码翻译保真度)、KernelBench(CUDA kernel性能)四大异构基准上验证;所有实验均报告样本效率(evals/optimality)与时间开销,POLCA在噪声达30%时仍保持92%+最优解召回率;开源完整代码(https://github.com/rlx-lab/POLCA);值得深挖方向:LLM Summarizer的可解释性蒸馏、ε-Net与贝叶斯优化的理论融合、向具身智能体在线优化迁移。
  • 相关研究
    1. 'PromptBreeder: Automatic Prompt Generation via LLM-based Self-Inspiration' (ICLR 2024); 2. 'AutoGen: Enabling Next-Generation Agentic Workflows' (arXiv:2308.08155); 3. 'Stochastic Search for LLM Alignment: A Bandit Perspective' (NeurIPS 2023); 4. 'OptiPrompt: Gradient-Based Prompt Optimization for Language Models' (ACL 2023); 5. 'LLM-as-an-Optimizer: Zero-Shot Black-Box Optimization with Large Language Models' (ICML 2024 Workshop)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问