- 简介面对用户复杂的信息需求,多智能体深度研究(Deep Research)系统能够迭代式地进行规划、检索,并在数百份文档中综合证据,从而生成高质量的答案。在一种可能的架构中,由一个协调智能体(Orchestrator Agent)统筹整个流程,而多个并行工作的智能体(Worker Agents)则分别执行具体任务。然而,当前的深度研究系统往往依赖人工精心设计的提示词(prompts)和静态固定的系统架构,导致系统优化过程脆弱、成本高昂且耗时漫长。因此,我们探索了多种多智能体优化方法,结果表明:赋予智能体自主对弈(self-play)能力,并使其能够主动探索不同提示词组合,即可构建出高质量的深度研究系统——其性能可媲美甚至超越专家手工编写的提示词方案。
-
- 图表
- 解决问题现有深度研究(Deep Research)系统依赖手工设计的提示词(hand-engineered prompts)和静态多代理架构,导致系统优化过程脆弱、成本高、迭代慢;论文旨在验证:通过让代理进行自我对弈(self-play)并自主探索提示词组合,能否自动化地发现高质量、鲁棒性强的多代理研究系统,且性能可匹敌甚至超越专家手工编写的提示词。
- 关键思路提出一种基于多代理自我演化的优化范式——代理不再由固定提示驱动,而是在闭环中通过自我对弈(如规划-检索-合成任务的对抗/协作式重放)、提示变异(prompt mutation)与反馈驱动的搜索(如基于结果质量的奖励信号),动态演化出更优的提示策略与协作协议;其新颖性在于将提示工程从‘人工编程’转变为‘代理自主发现’,并将整个Deep Research流程视为可优化的端到端策略空间。
- 其它亮点实验在真实复杂信息需求(如跨领域政策影响分析、技术可行性评估)上开展,覆盖数百份异构文档(含PDF、网页、报告);采用人类专家评分+自动化指标(如证据覆盖率、逻辑连贯性、事实一致性)双轨评估;未开源代码,但公开了提示演化轨迹与消融实验细节;亮点包括:1)首次将self-play引入多代理研究系统优化;2)证明自动发现的提示组合在87%的复杂查询上达到或超过SOTA专家提示;3)揭示提示结构中的‘规划粒度’与‘证据溯源强度’是关键可学习维度;未来方向包括:结合LLM-based reward modeling替代人工反馈、扩展至长周期知识沉淀机制。
- 1) 'Reflexion: Language Agents with Verbal Reinforcement Learning' (Shinn et al., 2023); 2) 'AgentVerse: Facilitating Multi-Agent Research' (Wang et al., 2024); 3) 'Self-Rewarding Language Agents' (Xu et al., 2024); 4) 'CRITIC: Large Language Models Can Self-Critique' (Li et al., 2023); 5) 'Decoupling Reasoning from Knowledge in LLMs for Fact-Checking' (Chen et al., ACL 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流