Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play

2023年11月28日
  • 简介
    最近,竞争性自我对抗(CSP)在使用分布式多智能体强化学习(MARL)的复杂游戏环境中,如Dota 2和StarCraft II中取得了甚至超过人类水平的表现。这些方法的核心组成部分之一是创建一个学习代理池,包括主代理、过去版本的该代理和利用者代理,利用者代理学习对抗主代理的策略。这些方法的一个主要缺点是需要大量计算成本和物理时间来训练系统,使它们在高度迭代的现实生活环境中,如视频游戏制作,变得不切实际。在本文中,我们提出了Minimax Exploiter,这是一种博弈论方法,用于利用对手的知识来对抗主代理,从而显著提高数据效率。我们在各种环境中验证了我们的方法,包括简单的回合制游戏、街机学习环境和现代视频游戏For Honor。Minimax Exploiter始终优于强基线,表现出改进的稳定性和数据效率,从而实现了一个既灵活又易于部署的强化学习方法,使其具有鲁棒性。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在提出一种新的方法,以解决分布式多智能体强化学习(Distributed Multi-Agent Reinforcement Learning, MARL)中的计算成本和物理时间问题。
  • 关键思路
    Minimax Exploiter是一种博弈论方法,利用对手的知识来利用主代理,从而实现数据效率的显著提高。
  • 其它亮点
    该方法在多个实验中得到验证,包括简单的回合制游戏、街机学习环境和现代游戏For Honor。Minimax Exploiter在稳定性和数据效率方面均优于强基线,从而实现了灵活且易于部署的强化学习方法。
  • 相关研究
    最近的相关研究包括Competitive Self-Play (CSP)和Distributed Multi-Agent Reinforcement Learning (MARL)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问