A Two-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games

2024年07月05日
  • 简介
    一种有趣的迭代过程被提出来解决双人零和马尔可夫博弈。首先,将这个问题表述为极小极大马尔可夫博弈。接下来,为了解决马尔可夫决策问题(MDP),对两步 Q-learning 算法进行适当修改以解决这个马尔可夫博弈。在适当的假设下,理论上得到了所提出的迭代的有界性。利用随机逼近的结果,理论上得到了所提出的两步极小极大 Q-learning 的几乎必然收敛性。更具体地说,当模型信息未知时,所提出的算法以概率一收敛于博弈理论最优值。数值模拟证实了所提出的算法是有效的且易于实现。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文旨在解决两个玩家零和马尔可夫博弈问题,并提出了一个迭代算法。
  • 关键思路
    关键思路:将问题转化为最小最大马尔可夫博弈,然后使用经过改进的两步Q-learning算法来解决问题。
  • 其它亮点
    亮点:理论上证明了算法的有界性和几乎必然的收敛性,数值模拟表明算法是有效的且易于实现。
  • 相关研究
    相关研究:最近的相关研究包括“Deep Reinforcement Learning for Markov Games”和“Convergence of Q-learning: A Simple Proof”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问