- 简介本研究介绍了一项新的LLM-Coordination基准测试,旨在通过纯协调游戏的背景下对LLM进行详细分析,其中参与的代理需要合作以获得最大收益。该基准测试通过两个不同的任务评估LLM:(1)代理协调,其中LLM作为主动参与者在4个纯协调游戏中合作;(2)协调问答(QA),其中LLM被提示回答来自4个游戏的198个多项选择题,以评估三个关键推理能力:环境理解、心智理解和联合规划。此外,为了使LLM能够进行多代理协调,我们引入了一个协调认知架构(CAC)框架,可以将不同的LLM作为纯协调游戏的即插即用模块轻松集成。我们的研究结果表明,装备有GPT-4-turbo的LLM代理在需要基于环境进行常识性行动的游戏中表现与最先进的强化学习方法相当。此外,零-shot协调实验表明,与RL方法不同,LLM代理对新的未见过的合作伙伴具有鲁棒性。然而,协调QA的结果显示,LLM的心智理解和联合规划能力仍有很大的提升空间。分析还揭示了LLM理解其环境和伙伴信念和意图的能力如何影响其规划协调的能力。我们的代码可在\url{https://github.com/eric-ai-lab/llm_coordination}上找到。
- 图表
- 解决问题本论文旨在通过引入一个新的LLM-Coordination Benchmark来评估大型语言模型的协调能力,以及介绍一个Cognitive Architecture for Coordination (CAC)框架,以便将LLMs作为纯协调游戏的插件模块进行集成,从而解决多代理协调问题。
- 关键思路通过新的LLM-Coordination Benchmark,本论文评估了LLMs在纯协调游戏中的表现,提出了一个Cognitive Architecture for Coordination (CAC)框架来解决多代理协调问题。
- 其它亮点本论文提出的LLM-Coordination Benchmark包括两个任务:Agentic Coordination和Coordination Question Answering (QA),并通过198个多选题对LLMs的环境理解、ToM推理和联合规划等三个关键推理能力进行评估。实验结果表明,LLM代理在环境感知和基于环境的常识行为方面的表现与强化学习方法相当,而且在零-shot协调实验中表现出鲁棒性。但在Coordination QA方面,LLMs的ToM推理和联合规划能力有待提高。
- 最近的相关研究包括:《Learning to Coordinate with Coordination Graphs in Deep Multi-Agent Reinforcement Learning》、《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》等。
沙发等你来抢
去评论
评论
沙发等你来抢