How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

2026年02月23日
  • 简介
    深度研究(Deep Research)智能体通过多轮检索与面向决策的生成来应对知识密集型任务。尽管强化学习(RL)已被证实可提升此类范式下的性能,但其具体作用机制仍缺乏深入探索。为全面厘清强化学习在其中所扮演的角色,我们从三个相互解耦的维度——提示模板(prompt template)、奖励函数(reward function)与策略优化方法(policy optimization)——开展了系统性研究。我们的研究发现: 1)相较于先前工作中采用的“慢思考”(Slow Thinking)模板,“快思考”(Fast Thinking)模板展现出更高的训练稳定性与更优的整体性能; 2)基于F1分数设计的奖励函数因“答案回避”(answer avoidance)引发的训练坍塌问题,表现反而劣于精确匹配(Exact Match, EM)奖励;而通过引入动作层级的惩罚机制,可有效缓解该问题,最终使F1奖励方案的性能反超EM奖励; 3)在策略优化方法中,REINFORCE算法不仅性能优于近端策略优化(PPO),且所需搜索动作次数更少;相比之下,广义相对策略优化(GRPO)则在各类策略优化方法中表现出最差的训练稳定性。 基于上述发现,我们进一步提出增强型基线模型Search-R1++:其在Qwen2.5-7B模型上将Search-R1的性能由0.403提升至0.442,在Qwen2.5-3B模型上则由0.289提升至0.331。我们期望本研究的成果能为深度研究系统中更严谨、更可靠的强化学习训练策略奠定基础。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在系统解耦并量化强化学习(RL)在Deep Research代理(即多轮检索+决策生成的知识密集型任务框架)中的实际作用,验证‘RL提升性能’这一经验观察背后的可归因机制——具体聚焦于prompt设计、奖励函数设计和策略优化算法三个正交维度是否以及如何影响稳定性、收敛性与最终效果。这不是全新问题,但此前缺乏结构化、可复现的归因分析。
  • 关键思路
    提出三维度解耦实验范式(prompt template / reward function / policy optimization),首次揭示:1)Fast Thinking prompt比Slow Thinking更鲁棒;2)F1奖励易引发模型‘答案回避’导致训练坍塌,而引入动作级惩罚可修复并超越EM奖励;3)REINFORCE在样本效率与稳定性上优于PPO,GRPO表现最差。该归因式设计突破了以往端到端RL调优的黑箱范式。
  • 其它亮点
    实验在Qwen2.5-3B/7B上开展,使用标准Deep Research benchmark(如HotpotQA、2WikiMQA等知识推理数据集),严格控制变量(固定检索器、相同监督微调基线Search-R1);未提开源代码,但方法细节完整可复现;关键发现具普适性——如动作级惩罚机制、Fast Thinking模板设计可迁移至其他检索增强生成(RAG)系统;未来方向包括:将动作惩罚泛化为不确定性感知奖励、探索prompt-RL协同优化、构建RL训练稳定性诊断工具。
  • 相关研究
    《Teaching Large Language Models to Self-Debug》(ICLR 2024);《ReAct: Synergizing Reasoning and Acting in Language Models》(ICLR 2023);《Search-R1: Reinforcement Learning for Deep Research Agents》(NeurIPS 2023);《GRPO: Generalized Reward-Policy Optimization for LLMs》(arXiv 2024);《Reward Design for Language Model Alignment: A Taxonomy and Empirical Study》(ACL 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问