Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach

2024年06月30日
  • 简介
    Pommerman是一个多智能体环境,近年来受到了研究人员的广泛关注。该环境是多智能体训练的理想基准,为具有联盟智能体之间通信能力的两个团队提供了一个战场。由于延迟的行动效果、稀疏的奖励和错误的正面效应,即对手玩家可能因自己的错误而输掉比赛,Pommerman对于无模型强化学习提出了重大挑战。本研究介绍了一种系统,该系统设计用于通过课程学习和基于人口的自我博弈训练多智能体系统玩Pommerman。此外,我们还解决了部署多智能体训练系统进行竞争游戏时的两个难题:稀疏奖励和适当的匹配机制。具体来说,我们提出了一种自适应的退火因子,基于智能体的表现动态调整密集探索奖励。此外,我们实现了一个利用Elo评分系统有效匹配智能体的匹配机制。我们的实验结果表明,我们训练的智能体可以在不需要联盟智能体之间通信的情况下胜过顶级学习智能体。
  • 图表
  • 解决问题
    本论文旨在解决Pommerman多智能体环境中的多个挑战,包括延迟行动效应、稀疏奖励和虚假正例等问题。同时,论文还试图解决多智能体竞争游戏中的稀疏奖励和合适的匹配机制问题。
  • 关键思路
    论文提出了一种结合课程学习和基于种群的自我对弈的系统来训练多智能体系统玩Pommerman的方法。此外,论文提出了一种自适应的退火因子,用于动态调整训练期间的密集探索奖励,并实现了使用Elo评分系统的匹配机制来有效地匹配代理。
  • 其它亮点
    论文的实验结果表明,使用所提出的方法训练的代理可以在没有盟军通信的情况下击败顶尖的学习代理。此外,论文还使用了一些流行的强化学习算法进行对比实验,并使用了Pommerman竞赛平台进行了实际比赛测试。
  • 相关研究
    最近的相关研究包括: 1. Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms 2. Emergent Complexity via Multi-Agent Competition 3. Learning to Communicate in Multi-Agent Reinforcement Learning
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论