Vector Policy Optimization: Training for Diversity Improves Test-Time Search

向作者提问

NEW

简介

如今，语言模型必须具备“开箱即用”的泛化能力，以适应全新环境，并能嵌入推理规模扩展型的搜索流程（例如 AlphaEvolve）中——这类流程需依据多种任务特定的奖励函数，对模型生成的轨迹（rollouts）进行筛选。遗憾的是，当前大语言模型（LLM）后训练所采用的标准范式，仅优化一个预先设定的标量奖励值，这往往导致现有 LLM 生成的响应分布熵值偏低，因而难以展现出推理时搜索所必需的多样性。为此，我们提出向量策略优化（Vector Policy Optimization, VPO）——一种强化学习算法，其核心目标是显式地训练策略，使其能够预判下游可能出现的多种奖励函数，并主动产出多样化的解决方案。VPO 的设计充分利用了实践中奖励函数常为向量形式这一事实，例如在代码生成任务中，奖励可表示为每个测试用例是否通过的布尔向量；又如在面向不同用户画像或多个奖励模型的场景中，奖励亦可自然地建模为多维向量。VPO 本质上可作为 GRPO 优势估计器的即插即用式替代方案，但它训练语言模型输出一组解，其中每个解均在向量奖励空间的不同权衡维度上实现专业化。在四项任务上的实验表明，VPO 在测试时搜索性能（如 pass@k 和 best@k 指标）上达到或超越了最强的标量强化学习基线，且随着搜索预算增加，其性能优势愈发显著。在进化式搜索（evolutionary search）中，采用 VPO 训练的模型甚至能够解决 GRPO 模型完全无法应对的问题。随着测试时搜索技术日趋标准化，以多样性为目标的优化，或将逐步成为后训练阶段的默认优化目标。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前大语言模型（LLM）在后训练阶段通常优化单一标量奖励（如人类反馈强化学习RLHF中的综合得分），导致策略输出熵低、多样性不足，难以支撑推理时搜索（inference-time search）——如AlphaEvolve等需在多目标、多用户偏好或多样任务条件下采样高质异构解的场景。该问题在搜索预算增大时尤为突出，且尚未被主流RLHF范式系统性建模。
关键思路

提出Vector Policy Optimization（VPO），一种将向量值奖励（如逐测试用例正确性、多 persona 偏好、多维度对齐指标）直接作为训练信号的RL算法；VPO并非优化单个标量期望回报，而是显式鼓励策略生成一组解，使每个解在向量奖励空间中占据不同帕累托方向，从而天然支持下游多样化搜索。其核心是替换GRPO的优势估计器，实现端到端向量奖励感知的策略训练，无需修改模型架构或推理流程，属‘drop-in replacement’级创新。
其它亮点

在4个任务（含代码生成、多 persona 对话、多目标推理、合成多奖励环境）上验证：VPO在pass@k/best@k等搜索指标上全面持平或超越最强标量RL基线（如GRPO、PPO）；当搜索预算（如rollout数量）增加时性能差距显著扩大；在进化搜索中，VPO模型首次成功解决GRPO完全失效的复杂组合任务；论文未提开源代码，但方法设计简洁、兼容HuggingFace/TRL生态；值得深入的方向包括：向量奖励空间的自适应稀疏化、VPO与test-time scaling（如self-refine、speculative decoding）的协同、以及向量奖励的人类标注可扩展性。
相关研究

GRPO: Generalized Reward Policy Optimization (2023); AlphaEvolve: Evolutionary Search for LLMs via Reward-Guided Mutation (NeurIPS 2023); Direct Preference Optimization (DPO, 2023); Multi-Objective RL for LLMs (ICML 2024 Workshop); Pareto-optimal Prompting (ACL 2024); Reward Modeling with Multiple Reward Heads (arXiv:2402.11881)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问