Why Do Multi-Agent LLM Systems Fail?

向作者提问

NEW

简介

尽管对多智能体系统（MAS）的热情日益增长，在这些系统中多个大语言模型（LLM）智能体协作以完成任务，但与单智能体框架相比，它们在流行基准测试中的性能提升仍然有限。这一差距凸显了分析阻碍 MAS 有效性挑战的必要性。在本文中，我们展示了首个关于 MAS 挑战的全面研究。我们分析了五个流行的 MAS 框架在超过 150 个任务中的表现，并邀请了六位专家人类标注者参与评估。我们识别出 14 种独特的失败模式，并提出了一种适用于各种 MAS 框架的综合分类法。该分类法通过每项研究中三位专家标注者的迭代共识逐步形成，Cohen's Kappa 分数达到 0.88。这些详细的失败模式被归纳为三大类别：(i) 规范和系统设计缺陷，(ii) 智能体间对齐问题，以及 (iii) 任务验证与终止问题。为了支持可扩展的评估，我们将 MASFT 与 LLM-as-a-Judge 集成在一起。此外，我们探讨了是否可以通过提出两种干预措施来轻松预防已识别的失败：改进智能体角色的规范定义和增强编排策略。我们的研究发现表明，解决这些失败需要更复杂的解决方案，从而为未来的研究指明了明确的方向。我们开源了我们的数据集和 LLM 标注工具。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决多智能体系统（MAS）在任务表现上不如单智能体框架的问题，特别是分析其性能瓶颈和失败模式。这是一个重要的问题，因为尽管MAS的理论潜力巨大，但在实际应用中尚未充分发挥其优势。
关键思路

论文提出了一种全面的MAS失败模式分类方法，将14种独特的失败模式归纳为三类：(i) 规格与系统设计失败，(ii) 智能体间对齐问题，(iii) 任务验证与终止问题。通过引入LLM-as-a-Judge机制支持可扩展评估，并探索了两种干预措施以改进MAS性能。这种方法相比现有研究更系统化，提供了明确的研究方向。
其它亮点

论文通过150多个任务和六位专家标注者的参与，构建了一个高质量的数据集，并开放源代码和标注工具。实验设计严谨，使用Cohen's Kappa评分确保标注一致性。此外，论文提出了具体的干预措施，如改进智能体角色定义和增强协调策略，为进一步研究提供了基础。未来可以深入研究如何结合强化学习优化智能体交互以及开发更复杂的任务环境。
相关研究

近期相关研究包括《Multi-Agent Dialogue Systems for Complex Task Completion》、《Emergent Communication in Multi-Agent Reinforcement Learning》和《Analyzing Cooperation and Competition in Multi-Agent Systems》。这些研究主要关注智能体间的通信、协作与竞争机制，但较少涉及系统性失败模式分析。本研究弥补了这一空白，为后续工作奠定了理论基础。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问