- 简介为了让大型语言模型(LLMs)在具体任务中具备推理能力,需要将其与复杂的物理世界相结合,这是一个具有挑战性的任务。特别是,LLM在多智能体协作方面的规划需要智能体之间的通信或信用分配作为反馈,以重新调整提出的计划并实现有效的协调。然而,现有方法过度依赖物理验证或自我反思,导致对LLMs的过度和低效的查询。在本文中,我们提出了一个新的多智能体协作框架,引入了强化优势反馈(ReAd),以实现计划的高效自我完善。具体而言,我们通过批量学习LLM规划数据,执行评论家回归以学习序列优势函数,然后将LLM规划器视为优化器,生成最大化优势函数的动作。这赋予了LLM预见能力,可以判断动作是否有助于完成最终任务。我们通过将强化学习中的优势加权回归扩展到多智能体系统来提供理论分析。在Overcooked-AI和RoCoBench的一个困难变体上的实验表明,ReAd在成功率方面超过了基线,并且显著减少了智能体的交互步骤和LLMs的查询轮数,证明了其将LLMs与具体任务结合的高效性。更多结果请见\url{https://read-llm.github.io/}。
- 图表
- 解决问题如何有效地使用大型语言模型(LLMs)进行多智能体协作任务的计划和协调?
- 关键思路提出了一种新的框架,引入增强优势反馈(ReAd)来实现计划的自我完善。通过对LLM计划数据进行评论回归,学习序列优势函数,然后将LLM规划器视为优化器,生成最大化优势函数的行动,从而使LLM具有识别行动是否有助于完成最终任务的前瞻性。
- 其它亮点论文提出的ReAd框架在Overcooked-AI和RoCoBench数据集上进行了实验,证明了其在成功率和互动步骤以及查询轮数方面的高效性。此外,论文还将优势加权回归应用于多智能体系统,进行了理论分析。
- 近期的相关研究包括:1.《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》;2.《Multi-Agent Reinforcement Learning: A Survey》;3.《A Learning-Based Approach to Reactive Planning in Multi-Agent Systems》
沙发等你来抢
去评论
评论
沙发等你来抢