DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

简介

具备网络搜索功能的大型语言模型（LLMs）在深度研究任务中展现了令人印象深刻的潜力。然而，当前的方法主要依赖于两种方式：一种是性能脆弱的手动设计提示（基于提示工程的方法），另一种是在受控的检索增强生成（RAG）环境中使用强化学习（基于RAG的方法），但这些方法都无法捕捉真实世界交互的复杂性。在本文中，我们提出了DeepResearcher，这是第一个全面的框架，用于通过在真实世界环境中扩展强化学习（RL），并结合真实的网络搜索交互，实现基于LLM的深度研究代理的端到端训练。与假设所有必要信息都存在于固定语料库中的基于RAG的方法不同，我们的方法训练代理以应对开放网络中的噪声、无结构和动态特性。我们实现了一种专门的多代理架构，其中浏览代理能够从各种网页结构中提取相关信息，并克服了重大的技术挑战。在开放领域研究任务上的广泛实验表明，DeepResearcher相比基于提示工程的基线方法提升了高达28.9分，相比基于RAG的强化学习代理提升了高达7.2分。我们的定性分析揭示了端到端强化学习训练中出现的认知行为，包括制定计划的能力、从多个来源交叉验证信息、进行自我反思以重新调整研究方向，以及在无法找到明确答案时保持诚实。我们的结果表明，在真实世界的网络环境中进行端到端训练不仅是一个实现细节，更是开发与实际应用对齐的强大研究能力的根本要求。我们已在 https://github.com/GAIR-NLP/DeepResearcher 开源了DeepResearcher。
图表
解决问题

论文试图解决如何利用大型语言模型（LLM）在真实网络环境中进行高效、深度的研究任务问题。传统方法要么依赖手动设计的提示词，性能不稳定，要么基于受控环境中的检索增强生成（RAG），无法应对开放网络的动态和复杂性。这是一个新问题，专注于将RL技术应用到真实的网络搜索环境中。
关键思路

关键思路是引入DeepResearcher框架，通过扩展强化学习（RL）来训练LLM代理在真实网络环境中执行端到端研究任务。与RAG不同，DeepResearcher不依赖固定语料库，而是让代理适应开放网络的噪声和非结构化数据。论文采用多代理架构，其中浏览代理从不同网页结构中提取相关信息，并克服技术挑战以实现高效信息检索和处理。相比现有方法，这种方法更贴近实际应用场景。
其它亮点

实验表明DeepResearcher在开放领域研究任务上显著优于基线模型，比提示工程方法提升28.9分，比RAG-based RL代理提升7.2分。此外，通过端到端RL训练，代理展现出计划制定、信息交叉验证、自我反思等认知行为。代码已开源至https://github.com/GAIR-NLP/DeepResearcher，为未来研究提供了基础。值得深入研究的方向包括改进代理对复杂网页结构的理解能力以及优化多代理协作机制。
相关研究

相关研究包括：1) 使用提示工程优化LLM性能的工作（如“Prompt Engineering for Large Language Models”）；2) 基于RAG的方法，例如“Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”；3) 将RL应用于文本生成的研究，如“Reinforcement Learning for Text Generation”。这些工作大多局限于受控环境或静态数据集，而DeepResearcher则首次尝试在真实网络环境中进行端到端训练。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论