A Two-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games

简介

一种有趣的迭代过程被提出来解决双人零和马尔可夫博弈。首先，将这个问题表述为极小极大马尔可夫博弈。接下来，为了解决马尔可夫决策问题（MDP），对两步 Q-learning 算法进行适当修改以解决这个马尔可夫博弈。在适当的假设下，理论上得到了所提出的迭代的有界性。利用随机逼近的结果，理论上得到了所提出的两步极小极大 Q-learning 的几乎必然收敛性。更具体地说，当模型信息未知时，所提出的算法以概率一收敛于博弈理论最优值。数值模拟证实了所提出的算法是有效的且易于实现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决两个玩家零和马尔可夫博弈问题，并提出了一个迭代算法。
关键思路

关键思路：将问题转化为最小最大马尔可夫博弈，然后使用经过改进的两步Q-learning算法来解决问题。
其它亮点

亮点：理论上证明了算法的有界性和几乎必然的收敛性，数值模拟表明算法是有效的且易于实现。
相关研究

相关研究：最近的相关研究包括“Deep Reinforcement Learning for Markov Games”和“Convergence of Q-learning: A Simple Proof”。