DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

向作者提问

NEW

简介

配备网络搜索功能的大型语言模型（LLMs）在深度研究任务中展现了令人印象深刻的潜力。然而，当前的方法主要依赖于两种方式：一种是性能较为脆弱的手动设计提示词（基于提示工程的方法），另一种是在受控的检索增强生成（RAG）环境中使用强化学习（基于RAG的方法），但这些方法都无法捕捉真实世界交互的复杂性。在本文中，我们提出了DeepResearcher，这是第一个全面的框架，用于通过在真实世界的环境中扩展强化学习（RL），实现基于LLM的深度研究代理的端到端训练，同时结合真实的网络搜索交互。与假设所有必要信息都存在于固定语料库中的RAG方法不同，我们的方法训练代理去应对开放网络中嘈杂、无结构和动态的特性。我们实现了一种专门的多代理架构，其中浏览代理能够从各种网页结构中提取相关信息，并克服了显著的技术挑战。在开放领域研究任务上的广泛实验表明，DeepResearcher相较于基于提示工程的基线方法提升了多达28.9分，相较于基于RAG的强化学习代理提升了多达7.2分。我们的定性分析揭示了端到端强化学习训练中出现的认知行为，包括制定计划的能力、从多个来源交叉验证信息、通过自我反思调整研究方向，以及在无法找到明确答案时保持诚实。我们的结果表明，在真实世界的网络环境中进行端到端训练不仅仅是一个实现细节，而是开发与实际应用对齐的强大研究能力的根本要求。我们已将DeepResearcher开源，地址为 https://github.com/GAIR-NLP/DeepResearcher。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何让大型语言模型（LLMs）在真实开放网络环境中执行深度研究任务的问题。现有的方法要么依赖于手动设计的提示词，性能不稳定，要么基于受控的检索增强生成（RAG）环境，无法捕捉现实世界的复杂性。这是一个相对新颖的问题，因为之前的研究多集中在封闭语料库或人工优化提示上，而非真实的动态网络环境。
关键思路

关键思路是提出一个名为DeepResearcher的框架，通过强化学习（RL）对LLM进行端到端训练，使其能够直接与开放网络交互并完成复杂的深度研究任务。与RAG方法不同，DeepResearcher假设信息不是静态固定的，而是需要从动态、嘈杂和非结构化的网页中提取。此外，该框架采用多代理架构，其中浏览代理负责从不同的网页结构中提取相关信息。这种方法的新意在于将RL扩展到真实世界环境，并克服了开放网络中的技术挑战。
其它亮点

实验表明，DeepResearcher在开放领域研究任务中显著优于基于提示工程的方法（高达28.9分）以及基于RAG的RL代理（高达7.2分）。值得注意的是，经过端到端RL训练后，模型展现出了一些新兴的认知行为，如制定计划、跨源验证信息、自我反思以调整研究方向，以及在无法找到确切答案时保持诚实。代码已开源，可从https://github.com/GAIR-NLP/DeepResearcher获取。未来值得深入研究的方向包括进一步优化多代理架构以及探索更多复杂的现实场景应用。
相关研究

最近的相关研究包括：1) 提示工程优化方法，例如Chain-of-Thought Prompting；2) 检索增强生成（RAG）系统，如DPR（Dense Passage Retrieval）和REALM；3) 强化学习结合LLM的工作，例如ReAct和WebGPT。这些研究主要关注在受控环境下提高LLM的性能，而DeepResearcher则尝试突破这些限制，进入真实的开放网络环境。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问