- 简介一种有趣的迭代过程被提出来解决双人零和马尔可夫博弈。首先,将这个问题表述为极小极大马尔可夫博弈。接下来,为了解决马尔可夫决策问题(MDP),对两步 Q-learning 算法进行适当修改以解决这个马尔可夫博弈。在适当的假设下,理论上得到了所提出的迭代的有界性。利用随机逼近的结果,理论上得到了所提出的两步极小极大 Q-learning 的几乎必然收敛性。更具体地说,当模型信息未知时,所提出的算法以概率一收敛于博弈理论最优值。数值模拟证实了所提出的算法是有效的且易于实现。
-
- 图表
- 解决问题解决问题:论文旨在解决两个玩家零和马尔可夫博弈问题,并提出了一个迭代算法。
- 关键思路关键思路:将问题转化为最小最大马尔可夫博弈,然后使用经过改进的两步Q-learning算法来解决问题。
- 其它亮点亮点:理论上证明了算法的有界性和几乎必然的收敛性,数值模拟表明算法是有效的且易于实现。
- 相关研究:最近的相关研究包括“Deep Reinforcement Learning for Markov Games”和“Convergence of Q-learning: A Simple Proof”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流