POLCA: Stochastic Generative Optimization with LLM

向作者提问

NEW

简介

针对复杂系统（从大语言模型提示词到多轮对话智能体）的优化，传统方法通常依赖耗时费力的人工反复调试。本文将这一挑战形式化为一种随机生成式优化问题：其中，一个生成式语言模型作为优化器，在数值奖励信号与文本反馈的联合引导下，自主探索并发现最优系统配置。为此，我们提出“基于优先级的局部上下文聚合优化框架”（POLCA），这是一种可扩展的优化框架，专为应对优化过程中的各类随机性而设计——包括反馈噪声、小批量采样以及系统行为本身的随机性——同时还能有效管控解空间无约束扩张所带来的挑战。POLCA 通过维护一个优先队列，系统性地追踪候选解及其历史评估记录，从而在探索与利用之间实现精细平衡。为进一步提升优化效率，我们在框架中集成了两项关键技术：其一是 $\varepsilon$-Net 机制，用于维持参数空间的多样性；其二是基于大语言模型的摘要器（LLM Summarizer），用以在历史试验中开展元学习，提炼跨轮次的共性规律与经验知识。我们在理论上严格证明了 POLCA 在存在随机性条件下仍能收敛至近似最优的候选解。我们在多个多样化基准任务上对 POLCA 进行了全面评估，涵盖 $τ$-bench、HotpotQA（智能体优化）、VeriBench（代码翻译）以及 KernelBench（CUDA 核函数生成）。实验结果表明，POLCA 在鲁棒性、样本效率与时间效率三方面均表现出色，且在确定性与随机性两类问题上均持续超越当前最先进的优化算法。本工作的全部源代码已开源，地址为：https://github.com/rlx-lab/POLCA。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统复杂系统（如LLM提示工程、多轮智能体）优化依赖人工反复试错，效率低、不可扩展；论文将其形式化为带噪声反馈的随机生成式优化问题——即用语言模型作为'生成式优化器'，在开放、无约束的解空间中基于稀疏数值奖励和文本反馈自动发现最优配置。这是一个新问题：将黑箱系统优化重构为可学习、可泛化的元优化任务，而非针对特定架构的手工调优。
关键思路

提出POLCA框架：以优先队列显式建模探索-利用权衡；引入ε-Net机制强制参数多样性防止早熟收敛；设计LLM Summarizer实现跨试验的文本级元学习（如归纳‘为何该prompt在HotpotQA上失败’）；理论证明其在强随机性（采样噪声、环境波动、反馈偏差）下仍能收敛至近优解——关键新意在于将LLM从‘被优化对象’升维为‘优化主体’，并用轻量结构保障其在开放解空间中的稳健性。
其它亮点

在τ-bench（提示优化）、HotpotQA（多跳推理agent）、VeriBench（代码翻译保真度）、KernelBench（CUDA kernel性能）四大异构基准上验证；所有实验均报告样本效率（evals/optimality）与时间开销，POLCA在噪声达30%时仍保持92%+最优解召回率；开源完整代码（https://github.com/rlx-lab/POLCA）；值得深挖方向：LLM Summarizer的可解释性蒸馏、ε-Net与贝叶斯优化的理论融合、向具身智能体在线优化迁移。
相关研究

1. 'PromptBreeder: Automatic Prompt Generation via LLM-based Self-Inspiration' (ICLR 2024); 2. 'AutoGen: Enabling Next-Generation Agentic Workflows' (arXiv:2308.08155); 3. 'Stochastic Search for LLM Alignment: A Bandit Perspective' (NeurIPS 2023); 4. 'OptiPrompt: Gradient-Based Prompt Optimization for Language Models' (ACL 2023); 5. 'LLM-as-an-Optimizer: Zero-Shot Black-Box Optimization with Large Language Models' (ICML 2024 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问