- 简介深度强化学习在信息不完全的游戏中取得了显著进展,但在斗地主这个扑克牌游戏中的表现仍然不尽如人意。斗地主不同于传统游戏,它涉及三名玩家,结合了合作和对抗的元素,导致状态和动作空间很大。2021年,一个名为DouZero的斗地主程序通过利用传统的蒙特卡罗方法和多层感知器,超越了之前没有先验知识的模型。在此基础上,我们的研究将残差网络纳入模型,探索不同的架构设计,并进行多角色测试。我们的研究发现,这个模型在相同的训练时间内显著提高了胜率。此外,我们引入了一个叫分系统来帮助代理决定是否成为地主。通过这些增强,我们的模型不断超越现有版本的DouZero,甚至超过了有经验的人类玩家。我们的源代码可在\url{https://github.com/Yingchaol/Douzero_Resnet.git}找到。
-
- 图表
- 解决问题本论文旨在提高深度强化学习在三人斗地主游戏中的表现,探索不同的架构设计和多角色测试,并引入叫分系统来协助代理决定是否成为地主。
- 关键思路论文将残差网络引入模型中,结合传统的蒙特卡罗方法和多层感知器,使得模型在相同的训练时间内显著提高了胜率。
- 其它亮点论文使用了开源代码,实验设计包括多角色测试和引入叫分系统,模型表现超过了现有版本的DouZero和经验丰富的人类玩家。
- 最近的相关研究包括DouZero和其前身AlphaDou等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流