【标题】Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL
【作者团队】Jakub Grudzien Kuba, Xidong Feng, Shiyao Ding, Hao Dong, Jun Wang, Yaodong Yang
【发表日期】2022.8.2
【论文链接】https://arxiv.org/pdf/2208.01682.pdf
【demo 链接】 https://github.com/anonymouswater/HAM
【推荐理由】智能机器之间合作的必要性已经在人工智能(AI)研究界普及了协作多智能体强化学习(MARL)。然而,许多研究工作都集中在开发实用的 MARL 算法,其有效性仅通过经验研究,因此缺乏理论保证。正如最近的研究所揭示的,MARL 方法通常在奖励单调性方面实现不稳定或收敛时次优的性能。为此,本文介绍了名为异构智能体镜像学习 (HAML) 的新框架,它为 MARL 算法设计提供了通用模板。并证明了从 HAML 模板派生的算法满足联合奖励的单调改进和收敛到纳什均衡的期望特性。通过证明当前最先进的协作 MARL 算法 HATRPO 和 HAPPO 实际上是 HAML 实例来验证 HAML 的实用性。最后提出了两种著名的 RL 算法 HAA2C(用于 A2C)和 HADDPG(用于 DDPG)的 HAML 扩展,并证明了它们在星际争霸 II 和多智能体 MuJoCo 任务上对强基线的有效性。
评论
沙发等你来抢