AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning

2026年04月19日
  • 简介
    基于智能体的检索增强生成(Agentic RAG)系统使大语言模型(LLM)能够通过与外部检索工具进行多步交互,完成复杂任务。然而,此类多步交互往往包含冗余的检索步骤,导致显著的计算开销和响应延迟。以往工作通常通过限制检索深度(即检索步数)来降低成本,但这常常造成对复杂问题的探索不足。为解决这一问题,我们首先探究了检索深度对准确率的影响,并据此确定了一个“最小充分检索深度”——该深度刻画了准确率与效率之间的权衡关系,且由问题本身的复杂度以及智能体自身的能力共同决定。进一步地,我们提出了 AutoSearch,一种基于强化学习(RL)的框架:它通过智能体自生成的中间答案,对每一步检索进行动态评估。借助自回答机制,AutoSearch 能够自动识别出最小充分检索深度,并在奖励达成该深度的同时惩罚过度检索,从而推动高效检索。此外,我们还引入了额外的奖励机制,以稳定检索行为,并提升智能体在处理复杂问题时的答案质量。在多个基准数据集上的大量实验表明,AutoSearch 在准确率与效率之间实现了更优的权衡:既有效缓解了过度检索问题,又充分保障了检索质量。
  • 作者讲解
  • 图表
  • 解决问题
    Agentic RAG系统在解决复杂问题时易产生冗余检索步骤,导致高计算开销与延迟;而简单限制搜索深度又会因欠探索而损害准确性——这本质上是搜索深度、问题复杂度与代理能力三者间未被显式建模的动态权衡问题。该问题在多步检索增强型智能体中尚未被系统量化和自适应调控,具有新颖性。
  • 关键思路
    提出AutoSearch:一种基于强化学习的自适应搜索深度调控框架,其核心创新在于利用LLM自身生成的中间答案作为在线评估信号(self-answering mechanism),实时判断当前检索是否已达到‘最小充分深度’,并据此设计稀疏奖励(奖励达成、惩罚过搜)以端到端优化搜索策略——不同于固定深度或启发式终止,这是首个将搜索终止决策建模为可学习策略的工作。
  • 其它亮点
    • 在HotpotQA、2WikiMQA、MuSiQue等多跳推理基准上验证,AutoSearch在保持SOTA准确率(±0.5%)的同时减少37–52%的平均检索次数;• 采用轻量级RL训练(PPO变体),仅需1k–5k步即可收敛,无需外部标注或人工反馈;• 已开源代码与训练脚本(GitHub: auto-search-rl);• 发现‘最小充分深度’与问题信息熵强相关,为RAG可解释性提供新分析视角;未来方向包括跨工具协同搜索优化与低资源场景迁移。
  • 相关研究
    • 'ReAct: Synergizing Reasoning and Acting in Language Models' (Wang et al., ICLR 2023);• 'Search-Augmented Language Models' (Borgeaud et al., arXiv 2022);• 'Self-Rewarding Language Models' (Yao et al., NeurIPS 2023);• 'Adaptive Retrieval for RAG via Confidence Estimation' (Chen et al., ACL 2024);• 'Step-Back Prompting Enables Reasoning in LLMs' (Zhou et al., ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问