Guarantees for Self-Play in Multiplayer Games via Polymatrix Decomposability

2023年10月17日
  • 简介
    自我对弈是一种多智能体系统中机器学习的技术,其中学习算法通过与自身的副本交互来学习。自我对弈对于生成大量的学习数据非常有用,但缺点是学习者在训练后将面对与其通过自我交互所期望的智能体截然不同的行为。对于两人零和游戏的特殊情况,达到纳什均衡的自我对弈保证能够产生对任何训练后对手表现良好的策略;然而,对于多人游戏,不存在这样的保证。我们展示了在游戏近似分解为一组两人零和游戏(称为常和多矩阵游戏)的情况下,在每个子游戏中全局的 $\epsilon$-纳什均衡与纳什均衡之间有有限的距离(称为子游戏稳定性),通过自我对弈学习的任何无外部遗憾算法都将产生具有有限弱点的策略。我们的结果首次确定了多人游戏的结构特性,使得一类广泛的自我对弈算法产生的策略具有性能保证。我们通过对Leduc扑克的实验展示了我们的发现。
  • 作者讲解
  • 解决问题
    本文旨在解决自我博弈在多人博弈中的应用问题,即如何通过自我博弈来训练出对抗不同对手都具有优秀表现的策略。
  • 关键思路
    本文提出了一种基于自我博弈的算法,该算法能够在多人博弈中生成具有有限弱点的策略。此外,本文还证明了一种多人博弈的结构特性,即常和多重博弈,该特性使得自我博弈算法生成的策略具有性能保证。
  • 其它亮点
    本文提出的算法在Leduc扑克游戏中进行了实验,证明了该算法能够生成具有有限弱点的策略。此外,本文证明了一种多人博弈的结构特性,即常和多重博弈,该特性使得自我博弈算法生成的策略具有性能保证。本文的工作值得进一步研究和探索。
  • 相关研究
    近期的相关研究包括: 1. Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms 2. Deep Reinforcement Learning for Multi-Agent Systems: A Review 3. Multi-Agent Reinforcement Learning: Independent vs. Cooperative Agents
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问