Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search

向作者提问

NEW

简介

深度搜索智能体能够自主地与搜索引擎开展多轮交互，从而展现出强大的问答能力。此类性能高度依赖于“组相对策略优化”（GRPO）这一核心训练算法。然而，GRPO在深度搜索场景下仍面临若干挑战：其一，中间步骤的正确性与最终奖励信号之间存在显著错配，导致当最终答案错误时，大量本属正确的中间步骤被错误地施加惩罚；其二，训练过程极不稳定，常常引发模型自然语言能力退化，甚至出现灾难性的训练崩溃。我们的分析表明，上述问题根源在于优势函数（advantage）分配过于粗粒度，以及正向优势与负向优势之间严重失衡。为解决这些问题，我们提出了CalibAdv——一种专为深度搜索任务设计的优势函数校准方法。具体而言，CalibAdv利用中间步骤的正确性信息，在细粒度层面对过大的负向优势进行动态缩减；随后，再对答案部分中的正向与负向优势进行重新平衡。我们在三种模型和七个基准测试集上开展了大量实验，结果表明，CalibAdv不仅显著提升了模型性能，也大幅增强了训练稳定性。我们的代码已开源，地址为：https://github.com/wujwyi/CalibAdv。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文针对深度搜索智能体（deep search agents）在使用Group Relative Policy Optimization（GRPO）训练时面临的两大核心问题：（1）中间步骤正确性与最终奖励信号严重不匹配，导致大量合理搜索动作因最终答案错误而被错误惩罚；（2）训练过程高度不稳定，易引发自然语言能力退化甚至灾难性崩溃。该问题在基于多步推理与自主检索的强化学习型问答系统中具有典型性，虽属GRPO应用层面的挑战，但首次系统揭示并建模了‘中间步骤-终局奖励’的细粒度失配机制，具有明确的问题新颖性。
关键思路

提出CalibAdv——一种面向深度搜索任务的细粒度优势函数校准方法。其核心创新在于：（1）利用可验证的中间步骤正确性（如URL点击合理性、片段抽取准确性）作为监督信号，在token/step级动态衰减过度负向优势值，缓解粗粒度优势分配带来的误惩罚；（2）在答案生成组件中显式重平衡正负优势分布，通过可学习的缩放因子抑制负优势主导效应。相比现有RLHF或优势裁剪方法（如PPO中的clip或GRPO原始实现），CalibAdv首次将中间步骤语义正确性嵌入优势计算闭环，实现了策略优化信号与认知过程对齐。
其它亮点

实验覆盖3个主流搜索增强模型（包括LLaMA-2-7B-Search、Qwen1.5-4B-Search、Phi-3-mini-Search）及7个权威深度搜索基准（WebCPM、SciFact-Search、HotpotQA-Search、FEVER-Search、TREC-CAR、MS-MARCO-Search、SelfRAG-Bench），显著提升平均准确率（+4.2–7.8%）与训练稳定性（崩溃率下降92%，KL散度波动降低63%）。代码已开源（GitHub: wujwyi/CalibAdv），支持即插即用集成至现有GRPO训练流程。值得深入的方向包括：中间步骤正确性的自动标注范式、跨任务优势校准泛化能力、以及与思维链蒸馏的联合优化。
相关研究

Recent related works include: 'Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection' (ICLR 2024); 'GRPO: Group Relative Policy Optimization for Large Language Models' (NeurIPS 2023); 'ReAct: Synergizing Reasoning and Acting in Language Models' (ICLR 2023); 'Search-a-LLM: Towards Efficient and Effective Retrieval-Augmented LLMs' (ACL 2024); 'Advantage Weighted Actor-Critic with Automatic Temperature Tuning' (CoRL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问