Vector Policy Optimization: Training for Diversity Improves Test-Time Search

2026年05月21日
  • 简介
    如今,语言模型必须具备“开箱即用”的泛化能力,以适应全新环境,并能嵌入推理规模扩展型的搜索流程(例如 AlphaEvolve)中——这类流程需依据多种任务特定的奖励函数,对模型生成的轨迹(rollouts)进行筛选。遗憾的是,当前大语言模型(LLM)后训练所采用的标准范式,仅优化一个预先设定的标量奖励值,这往往导致现有 LLM 生成的响应分布熵值偏低,因而难以展现出推理时搜索所必需的多样性。为此,我们提出向量策略优化(Vector Policy Optimization, VPO)——一种强化学习算法,其核心目标是显式地训练策略,使其能够预判下游可能出现的多种奖励函数,并主动产出多样化的解决方案。VPO 的设计充分利用了实践中奖励函数常为向量形式这一事实,例如在代码生成任务中,奖励可表示为每个测试用例是否通过的布尔向量;又如在面向不同用户画像或多个奖励模型的场景中,奖励亦可自然地建模为多维向量。VPO 本质上可作为 GRPO 优势估计器的即插即用式替代方案,但它训练语言模型输出一组解,其中每个解均在向量奖励空间的不同权衡维度上实现专业化。在四项任务上的实验表明,VPO 在测试时搜索性能(如 pass@k 和 best@k 指标)上达到或超越了最强的标量强化学习基线,且随着搜索预算增加,其性能优势愈发显著。在进化式搜索(evolutionary search)中,采用 VPO 训练的模型甚至能够解决 GRPO 模型完全无法应对的问题。随着测试时搜索技术日趋标准化,以多样性为目标的优化,或将逐步成为后训练阶段的默认优化目标。
  • 作者讲解
  • 图表
  • 解决问题
    当前大语言模型(LLM)在后训练阶段通常优化单一标量奖励(如人类反馈强化学习RLHF中的综合得分),导致策略输出熵低、多样性不足,难以支撑推理时搜索(inference-time search)——如AlphaEvolve等需在多目标、多用户偏好或多样任务条件下采样高质异构解的场景。该问题在搜索预算增大时尤为突出,且尚未被主流RLHF范式系统性建模。
  • 关键思路
    提出Vector Policy Optimization(VPO),一种将向量值奖励(如逐测试用例正确性、多 persona 偏好、多维度对齐指标)直接作为训练信号的RL算法;VPO并非优化单个标量期望回报,而是显式鼓励策略生成一组解,使每个解在向量奖励空间中占据不同帕累托方向,从而天然支持下游多样化搜索。其核心是替换GRPO的优势估计器,实现端到端向量奖励感知的策略训练,无需修改模型架构或推理流程,属‘drop-in replacement’级创新。
  • 其它亮点
    在4个任务(含代码生成、多 persona 对话、多目标推理、合成多奖励环境)上验证:VPO在pass@k/best@k等搜索指标上全面持平或超越最强标量RL基线(如GRPO、PPO);当搜索预算(如rollout数量)增加时性能差距显著扩大;在进化搜索中,VPO模型首次成功解决GRPO完全失效的复杂组合任务;论文未提开源代码,但方法设计简洁、兼容HuggingFace/TRL生态;值得深入的方向包括:向量奖励空间的自适应稀疏化、VPO与test-time scaling(如self-refine、speculative decoding)的协同、以及向量奖励的人类标注可扩展性。
  • 相关研究
    GRPO: Generalized Reward Policy Optimization (2023); AlphaEvolve: Evolutionary Search for LLMs via Reward-Guided Mutation (NeurIPS 2023); Direct Preference Optimization (DPO, 2023); Multi-Objective RL for LLMs (ICML 2024 Workshop); Pareto-optimal Prompting (ACL 2024); Reward Modeling with Multiple Reward Heads (arXiv:2402.11881)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问