- 简介近年来,多智能体强化学习算法在各种游戏环境中取得了重大进展,引起了对这种技术更广泛应用的兴趣。为了解决部分可观测性的普遍挑战,基于通信的算法通过在智能体之间共享数值嵌入来提高合作性能。然而,对协作机制形成的理解仍然非常有限,因此设计一个人类可理解的通信机制是一个有价值的问题。在本文中,我们提出了一种新颖的多智能体强化学习算法,将大型语言模型嵌入到智能体中,赋予它们生成人类可理解的口头交流的能力。整个框架由消息模块和动作模块组成。消息模块负责生成并发送口头消息给其他智能体,有效增强了智能体之间的信息共享。为了进一步增强消息模块,我们采用教师模型从全局视角生成消息标签,并通过监督微调(SFT)更新学生模型。动作模块从其他智能体接收消息,并根据当前本地观察和接收到的消息选择动作。在Overcooked游戏上进行的实验表明,我们的方法显著提高了现有方法的学习效率和性能,同时为人类提供了一个可解释的工具,以了解多智能体合作的过程。
- 图表
- 解决问题本论文旨在解决多智能体协作中信息共享不足的问题,提出一种将大型语言模型嵌入到智能体中的算法,使其能够生成人类可理解的口头交流。
- 关键思路论文提出的算法包括消息模块和行动模块。消息模块负责生成和发送口头消息以增强智能体之间的信息共享。为了进一步提高消息模块的效果,使用教师模型生成全局视图的消息标签,并通过监督微调(SFT)更新学生模型。行动模块接收来自其他智能体的消息,并根据当前的局部观察和接收到的消息选择行动。
- 其它亮点本论文的算法在Overcooked游戏中的实验表明,相对于现有方法,本方法显著提高了学习效率和性能,并为人类提供了一个可解释的工具来理解多智能体协作的过程。
- 近年来,多智能体强化学习算法在不同的游戏环境中取得了显著进展,但对于协作机制的理解仍然非常有限。与此同时,也有一些研究探索了通过通信来增强协作表现的算法。
沙发等你来抢
去评论
评论
沙发等你来抢