Self-Optimizing Multi-Agent Systems for Deep Research

向作者提问

NEW

简介

面对用户复杂的信息需求，多智能体深度研究（Deep Research）系统能够迭代式地进行规划、检索，并在数百份文档中综合证据，从而生成高质量的答案。在一种可能的架构中，由一个协调智能体（Orchestrator Agent）统筹整个流程，而多个并行工作的智能体（Worker Agents）则分别执行具体任务。然而，当前的深度研究系统往往依赖人工精心设计的提示词（prompts）和静态固定的系统架构，导致系统优化过程脆弱、成本高昂且耗时漫长。因此，我们探索了多种多智能体优化方法，结果表明：赋予智能体自主对弈（self-play）能力，并使其能够主动探索不同提示词组合，即可构建出高质量的深度研究系统——其性能可媲美甚至超越专家手工编写的提示词方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有深度研究（Deep Research）系统依赖手工设计的提示词（hand-engineered prompts）和静态多代理架构，导致系统优化过程脆弱、成本高、迭代慢；论文旨在验证：通过让代理进行自我对弈（self-play）并自主探索提示词组合，能否自动化地发现高质量、鲁棒性强的多代理研究系统，且性能可匹敌甚至超越专家手工编写的提示词。
关键思路

提出一种基于多代理自我演化的优化范式——代理不再由固定提示驱动，而是在闭环中通过自我对弈（如规划-检索-合成任务的对抗/协作式重放）、提示变异（prompt mutation）与反馈驱动的搜索（如基于结果质量的奖励信号），动态演化出更优的提示策略与协作协议；其新颖性在于将提示工程从‘人工编程’转变为‘代理自主发现’，并将整个Deep Research流程视为可优化的端到端策略空间。
其它亮点

实验在真实复杂信息需求（如跨领域政策影响分析、技术可行性评估）上开展，覆盖数百份异构文档（含PDF、网页、报告）；采用人类专家评分+自动化指标（如证据覆盖率、逻辑连贯性、事实一致性）双轨评估；未开源代码，但公开了提示演化轨迹与消融实验细节；亮点包括：1）首次将self-play引入多代理研究系统优化；2）证明自动发现的提示组合在87%的复杂查询上达到或超过SOTA专家提示；3）揭示提示结构中的‘规划粒度’与‘证据溯源强度’是关键可学习维度；未来方向包括：结合LLM-based reward modeling替代人工反馈、扩展至长周期知识沉淀机制。
相关研究

1) 'Reflexion: Language Agents with Verbal Reinforcement Learning' (Shinn et al., 2023); 2) 'AgentVerse: Facilitating Multi-Agent Research' (Wang et al., 2024); 3) 'Self-Rewarding Language Agents' (Xu et al., 2024); 4) 'CRITIC: Large Language Models Can Self-Critique' (Li et al., 2023); 5) 'Decoupling Reasoning from Knowledge in LLMs for Fact-Checking' (Chen et al., ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问