Coordination Failure in Cooperative Offline MARL

Callum Rhys Tilbury ,
Claude Formanek ,
Louise Beyers ,
Jonathan P. Shock ,
Arnu Pretorius
2024年07月01日
  • 简介
    离线多智能体强化学习(MARL)利用静态数据集来学习最优多智能体控制。然而,从静态数据中学习存在一些独特的挑战需要克服。本文关注协调失败问题,并研究离线数据情况下多智能体策略梯度中联合动作的作用,重点研究一种常见情况,我们称之为“数据下的最佳响应”(BRUD)方法。通过使用双人多项式博弈作为分析工具,我们展示了BRUD算法的一个简单但被忽视的失败模式,这可能导致离线环境下的灾难性协调失败。基于这些洞见,我们提出了一种缓解这种失败的方法,通过在策略学习过程中根据联合动作相似性优先选择数据集中的样本,并在详细实验中展示了其有效性。然而,更普遍的是,我们认为优先选择数据集采样是离线MARL中的一个有前途的创新领域,可以与其他有效方法如评论家和策略规范相结合。重要的是,我们的工作展示了如何从简化的、可处理的游戏中获得有用的、理论上有根据的洞见,这些洞见可以转化到更复杂的情境中。一个核心维度是一个交互式笔记本,几乎所有的结果都可以在浏览器中重现。
  • 图表
  • 解决问题
    本文旨在解决离线多智能体强化学习中的协调失败问题,并探究联合动作在离线数据中的作用。同时,提出优先选择相似联合动作样本的方法来缓解该问题。
  • 关键思路
    本文提出了一种离线多智能体强化学习的新方法,即优先选择相似联合动作样本,并在两人多项式博弈中进行了分析和实验验证。
  • 其它亮点
    本文的亮点包括使用两人多项式博弈作为分析工具,揭示了BRUD算法的一个简单但被忽视的失败模式,并提出了优先选择相似联合动作样本的解决方案。实验结果表明该方法有效,并提供了交互式笔记本以便于结果的复现。
  • 相关研究
    相关研究包括《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》、《Off-Policy Deep Multi-Agent Reinforcement Learning with Reduced Communication》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论