DouRN: Improving DouZero by Residual Neural Networks

简介

深度强化学习在信息不完全的游戏中取得了显著进展，但在斗地主这个扑克牌游戏中的表现仍然不尽如人意。斗地主不同于传统游戏，它涉及三名玩家，结合了合作和对抗的元素，导致状态和动作空间很大。2021年，一个名为DouZero的斗地主程序通过利用传统的蒙特卡罗方法和多层感知器，超越了之前没有先验知识的模型。在此基础上，我们的研究将残差网络纳入模型，探索不同的架构设计，并进行多角色测试。我们的研究发现，这个模型在相同的训练时间内显著提高了胜率。此外，我们引入了一个叫分系统来帮助代理决定是否成为地主。通过这些增强，我们的模型不断超越现有版本的DouZero，甚至超过了有经验的人类玩家。我们的源代码可在\url{https://github.com/Yingchaol/Douzero_Resnet.git}找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提高深度强化学习在三人斗地主游戏中的表现，探索不同的架构设计和多角色测试，并引入叫分系统来协助代理决定是否成为地主。
关键思路

论文将残差网络引入模型中，结合传统的蒙特卡罗方法和多层感知器，使得模型在相同的训练时间内显著提高了胜率。
其它亮点

论文使用了开源代码，实验设计包括多角色测试和引入叫分系统，模型表现超过了现有版本的DouZero和经验丰富的人类玩家。
相关研究

最近的相关研究包括DouZero和其前身AlphaDou等。

DouRN: Improving DouZero by Residual Neural Networks

提问交流

提问交流