- 简介多智能体强化学习(MARL)在解决许多合作挑战方面取得了成功。然而,经典的非分层MARL算法仍然无法解决需要分层合作行为的各种复杂多智能体问题。在非分层算法中学习的合作知识和策略是隐式的且不可解释的,从而限制了现有知识的整合。本文提出了一种新颖的分层MARL模型,称为分层合作图学习(HCGL),用于解决一般的多智能体问题。HCGL有三个组成部分:动态可扩展合作图(ECG)用于实现自我聚类合作;一组图算子用于调整ECG的拓扑结构;以及用于训练这些图算子的MARL优化器。HCGL与其他MARL模型的主要区别在于,代理的行为是由ECG的拓扑结构而不是策略神经网络指导的。ECG是一个三层图,包括代理节点层、聚类节点层和目标节点层。为了响应不断变化的环境条件来操纵ECG的拓扑结构,训练了四个图算子以动态调整ECG的边缘连接。ECG的分层特征提供了一种独特的方法,将原始动作(代理执行的动作)和合作动作(聚类执行的动作)合并成一个统一的动作空间,使我们能够将基本的合作知识整合到可扩展的接口中。在我们的实验中,HCGL模型在稀疏奖励的多智能体基准测试中表现出色。我们还验证了HCGL可以轻松转移到具有高零-shot转移成功率的大规模场景中。
-
- 图表
- 解决问题论文旨在解决需要分层合作行为的复杂多智能体问题,传统的非分层多智能体强化学习算法无法解决这些问题。
- 关键思路论文提出了一种新的分层多智能体强化学习模型,称为Hierarchical Cooperation Graph Learning (HCGL),通过动态可扩展的协作图(ECG)、图操作符和MARL优化器三个组件来解决这个问题。
- 其它亮点HCGL模型的行为受ECG拓扑结构的指导,而不是策略神经网络。ECG是一个三层图,包括智能体节点层、集群节点层和目标节点层。四个图操作符用于动态调整ECG的边缘连接,以响应环境变化。HCGL模型在稀疏奖励的多智能体基准测试中表现出色,并且可以轻松转移到高零-shot传输成功率的大规模场景。
- 最近的相关研究包括分层多智能体强化学习、协作多智能体强化学习、可扩展多智能体强化学习等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流