Deep Research Agents: A Systematic Examination And Roadmap

简介

大语言模型（LLMs）的快速发展催生了一类新的自主人工智能系统，被称为“深度研究”（Deep Research，简称DR）代理。这些代理通过动态推理、适应性长视野规划、多跳信息检索、迭代工具使用以及生成结构化分析报告等手段，被设计用于处理复杂的多轮信息研究任务。本文对构成深度研究代理的基础技术和架构组件进行了详细分析。我们首先回顾了信息获取策略，对比了基于API的检索方法与基于浏览器的探索方式。接着，我们探讨了模块化的工具使用框架，包括代码执行、多模态输入处理，以及通过引入模型上下文协议（Model Context Protocols, MCPs）来支持系统的可扩展性和生态建设。为了对现有方法进行系统梳理，我们提出了一个分类体系，区分了静态与动态工作流程，并根据规划策略和代理构成（包括单代理与多代理配置）对代理架构进行了归类。此外，我们还对当前的基准测试进行了批判性评估，指出了其中一些关键限制，例如对外部知识访问的限制、顺序执行带来的效率低下，以及评估指标与DR代理实际目标之间的不匹配问题。最后，我们总结了当前尚未解决的挑战以及未来研究的潜在方向。目前，我们维护着一个经过整理并持续更新的DR代理研究资源库，地址为：{https://github.com/ai-agents-2030/awesome-deep-research-agent}。
图表
解决问题

论文旨在系统分析一类新兴的自主AI系统——Deep Research (DR) 代理，这些代理利用大型语言模型（LLMs）来解决复杂的、多轮的信息研究任务。当前的挑战包括对这类系统的基础技术、架构组件、信息获取策略、工具使用框架以及评估基准的缺乏系统性理解。这是一个随着LLM迅速发展而出现的新兴问题。
关键思路

论文提出了一种新的分类体系（taxonomy），将DR代理的工作流分为静态与动态两类，并根据规划策略和代理组成（单代理 vs 多代理）进行分类。此外，作者系统性地分析了信息检索方法（API-based vs browser-based）、模块化工具使用框架（如代码执行、多模态输入处理）以及Model Context Protocols（MCPs）在生态系统扩展中的作用。这种整合性的视角为理解和设计DR代理提供了统一的框架。
其它亮点

1. 提出了一个系统化的分类体系来区分DR代理的不同架构和工作流。 2. 深入探讨了浏览器探索与API检索两种信息获取方式的优劣。 3. 强调了当前基准测试的局限性，例如对外部知识访问的限制、顺序执行效率低下、评估指标与实际目标不一致等。 4. 介绍了支持持续更新的研究资源库（GitHub链接），具有较高的开放性和实用性。 5. 指出了多个未来研究方向，包括增强系统的长期记忆能力、提升多智能体协作效率等。
相关研究

1. LangChain: A Framework for Chain-of-Thought Reasoning with Language Models 2. AutoGPT: Autonomous Agents Using Large Language Models 3. AgentVerse: Enabling Multi-Agent Collaboration through Virtual Environments 4. Reasoning and Acting with Large Language Models: A Survey of Agent Architectures 5. Model Context Protocols: Towards Interoperability in Multi-Agent Systems

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论