Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration

2024年04月05日
  • 简介
    多智能体系统的兴起,特别是多智能体强化学习(MARL)的成功,正在重塑我们在自主车辆网络等各个领域的未来。然而,MARL仍然面临重大挑战,特别是在实现零样本可扩展性方面,这允许训练好的MARL模型直接应用于具有不同数量代理的未知任务。此外,真实世界的多智能体系统通常包含具有不同功能和策略的代理,而现有的可扩展MARL方法只具有有限的异质性。为了解决这个问题,我们提出了一种新的MARL框架,名为可扩展和异质性近端策略优化(SHPPO),将异质性整合到参数共享的基于PPO的MARL网络中。我们首先利用潜在网络来自适应地学习每个代理的策略模式。其次,我们引入了一个异质性层用于决策,其参数是由学习到的潜在变量特别生成的。我们的方法具有可扩展性,因为除了异质性层外,所有参数都是共享的,并且同时获得了个体间和时间上的异质性。我们基于最先进的PPO算法实现了我们的方法,称为SHPPO,而我们的方法对骨干结构不敏感,可以无缝地插入任何参数共享的MARL方法中。SHPPO在经典的MARL环境,如星际争霸多智能体挑战(SMAC)和谷歌研究足球(GRF)中,表现出优于MAPPO和HAPPO的性能,展示了增强的零样本可扩展性,并通过可视化为学习到的潜在表示对团队表现的影响提供了见解。
  • 图表
  • 解决问题
    论文旨在解决多智能体强化学习(MARL)中的零样本可扩展性和异质性问题。现有的可扩展MARL方法只有有限的异质性,而实际的多智能体系统通常包含具有不同功能和策略的智能体。
  • 关键思路
    论文提出了一种名为SHPPO的新型MARL框架,将异质性集成到参数共享的PPO-based MARL网络中。该框架通过学习每个智能体的策略模式,并引入一个异质层进行决策,从而实现了可扩展的、具有异质性的MARL。
  • 其它亮点
    实验结果表明,SHPPO在SMAC和GRF等经典MARL环境中表现出比基线方法MAPPO和HAPPO更好的性能。此外,SHPPO还提供了对学习的潜在表示对团队表现的影响的可视化。
  • 相关研究
    最近的相关研究包括:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments、Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms、A Survey of Multi-Agent Reinforcement Learning等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论