AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning

向作者提问

NEW

简介

基于智能体的检索增强生成（Agentic RAG）系统使大语言模型（LLM）能够通过与外部检索工具进行多步交互，完成复杂任务。然而，此类多步交互往往包含冗余的检索步骤，导致显著的计算开销和响应延迟。以往工作通常通过限制检索深度（即检索步数）来降低成本，但这常常造成对复杂问题的探索不足。为解决这一问题，我们首先探究了检索深度对准确率的影响，并据此确定了一个“最小充分检索深度”——该深度刻画了准确率与效率之间的权衡关系，且由问题本身的复杂度以及智能体自身的能力共同决定。进一步地，我们提出了 AutoSearch，一种基于强化学习（RL）的框架：它通过智能体自生成的中间答案，对每一步检索进行动态评估。借助自回答机制，AutoSearch 能够自动识别出最小充分检索深度，并在奖励达成该深度的同时惩罚过度检索，从而推动高效检索。此外，我们还引入了额外的奖励机制，以稳定检索行为，并提升智能体在处理复杂问题时的答案质量。在多个基准数据集上的大量实验表明，AutoSearch 在准确率与效率之间实现了更优的权衡：既有效缓解了过度检索问题，又充分保障了检索质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Agentic RAG系统在解决复杂问题时易产生冗余检索步骤，导致高计算开销与延迟；而简单限制搜索深度又会因欠探索而损害准确性——这本质上是搜索深度、问题复杂度与代理能力三者间未被显式建模的动态权衡问题。该问题在多步检索增强型智能体中尚未被系统量化和自适应调控，具有新颖性。
关键思路

提出AutoSearch：一种基于强化学习的自适应搜索深度调控框架，其核心创新在于利用LLM自身生成的中间答案作为在线评估信号（self-answering mechanism），实时判断当前检索是否已达到‘最小充分深度’，并据此设计稀疏奖励（奖励达成、惩罚过搜）以端到端优化搜索策略——不同于固定深度或启发式终止，这是首个将搜索终止决策建模为可学习策略的工作。
其它亮点

• 在HotpotQA、2WikiMQA、MuSiQue等多跳推理基准上验证，AutoSearch在保持SOTA准确率（±0.5%）的同时减少37–52%的平均检索次数；• 采用轻量级RL训练（PPO变体），仅需1k–5k步即可收敛，无需外部标注或人工反馈；• 已开源代码与训练脚本（GitHub: auto-search-rl）；• 发现‘最小充分深度’与问题信息熵强相关，为RAG可解释性提供新分析视角；未来方向包括跨工具协同搜索优化与低资源场景迁移。
相关研究

• 'ReAct: Synergizing Reasoning and Acting in Language Models' (Wang et al., ICLR 2023)；• 'Search-Augmented Language Models' (Borgeaud et al., arXiv 2022)；• 'Self-Rewarding Language Models' (Yao et al., NeurIPS 2023)；• 'Adaptive Retrieval for RAG via Confidence Estimation' (Chen et al., ACL 2024)；• 'Step-Back Prompting Enables Reasoning in LLMs' (Zhou et al., ICML 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问