- 简介将大型语言模型(LLMs)的推理能力应用于具体任务是具有挑战性的,因为物理世界的复杂性。特别是,LLM规划多智能体协作需要智能体之间的通信或信用分配作为反馈,以重新调整提出的计划并实现有效的协调。然而,现有方法过度依赖物理验证或自我反思,导致对LLMs的过度和低效的查询。在本文中,我们提出了一种新的多智能体协作框架,引入了强化优势反馈(ReAd),以实现计划的高效自我完善。具体而言,我们通过批量学习从LLM计划数据中学习顺序优势函数,然后将LLM规划器视为优化器,生成最大化优势函数的动作。这赋予了LLM预见性,以辨别动作是否有助于完成最终任务。我们通过将强化学习中的优势加权回归扩展到多智能体系统来提供理论分析。在Overcooked-AI和RoCoBench的一个困难变体上的实验表明,ReAd在成功率方面超过了基线,并且显着减少了智能体的交互步骤和LLMs的查询轮数,证明了它在LLMs的基础上具有很高的效率。更多结果请参见https://read-llm.github.io/。
-
- 图表
- 解决问题提出一种新的框架,为多智能体协作引入强化优势反馈以提高大语言模型的效率和准确性。
- 关键思路通过执行评论家回归来学习顺序优势函数,然后将LLM规划者视为优化器来生成最大化优势函数的动作,以提高LLM的预见性和协调能力。
- 其它亮点论文提出的ReAd框架在Overcooked-AI和RoCoBench数据集上的实验表明,与基线相比,ReAd在成功率上表现更好,同时显著减少了代理的交互步骤和LLM的查询轮数,展示了其提高LLM效率的高效性。
- 在这个领域的相关研究包括:《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》、《Learning Multiagent Communication with Backpropagation》、《A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流