Self-Clustering Hierarchical Multi-Agent Reinforcement Learning with Extensible Cooperation Graph

简介

多智能体强化学习（MARL）在解决许多合作挑战方面取得了成功。然而，经典的非分层MARL算法仍然无法解决需要分层合作行为的各种复杂多智能体问题。在非分层算法中学习的合作知识和策略是隐式的且不可解释的，从而限制了现有知识的整合。本文提出了一种新颖的分层MARL模型，称为分层合作图学习（HCGL），用于解决一般的多智能体问题。HCGL有三个组成部分：动态可扩展合作图（ECG）用于实现自我聚类合作；一组图算子用于调整ECG的拓扑结构；以及用于训练这些图算子的MARL优化器。HCGL与其他MARL模型的主要区别在于，代理的行为是由ECG的拓扑结构而不是策略神经网络指导的。ECG是一个三层图，包括代理节点层、聚类节点层和目标节点层。为了响应不断变化的环境条件来操纵ECG的拓扑结构，训练了四个图算子以动态调整ECG的边缘连接。ECG的分层特征提供了一种独特的方法，将原始动作（代理执行的动作）和合作动作（聚类执行的动作）合并成一个统一的动作空间，使我们能够将基本的合作知识整合到可扩展的接口中。在我们的实验中，HCGL模型在稀疏奖励的多智能体基准测试中表现出色。我们还验证了HCGL可以轻松转移到具有高零-shot转移成功率的大规模场景中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决需要分层合作行为的复杂多智能体问题，传统的非分层多智能体强化学习算法无法解决这些问题。
关键思路

论文提出了一种新的分层多智能体强化学习模型，称为Hierarchical Cooperation Graph Learning (HCGL)，通过动态可扩展的协作图(ECG)、图操作符和MARL优化器三个组件来解决这个问题。
其它亮点

HCGL模型的行为受ECG拓扑结构的指导，而不是策略神经网络。ECG是一个三层图，包括智能体节点层、集群节点层和目标节点层。四个图操作符用于动态调整ECG的边缘连接，以响应环境变化。HCGL模型在稀疏奖励的多智能体基准测试中表现出色，并且可以轻松转移到高零-shot传输成功率的大规模场景。
相关研究

最近的相关研究包括分层多智能体强化学习、协作多智能体强化学习、可扩展多智能体强化学习等。

Self-Clustering Hierarchical Multi-Agent Reinforcement Learning with Extensible Cooperation Graph

提问交流

提问交流