DouRN: Improving DouZero by Residual Neural Networks

CyberC 2023: 96-99
2024年03月21日
  • 简介
    深度强化学习在信息不完全的游戏中取得了显著进展,但在斗地主这个扑克牌游戏中的表现仍然不尽如人意。斗地主不同于传统游戏,它涉及三名玩家,结合了合作和对抗的元素,导致状态和动作空间很大。2021年,一个名为DouZero的斗地主程序通过利用传统的蒙特卡罗方法和多层感知器,超越了之前没有先验知识的模型。在此基础上,我们的研究将残差网络纳入模型,探索不同的架构设计,并进行多角色测试。我们的研究发现,这个模型在相同的训练时间内显著提高了胜率。此外,我们引入了一个叫分系统来帮助代理决定是否成为地主。通过这些增强,我们的模型不断超越现有版本的DouZero,甚至超过了有经验的人类玩家。我们的源代码可在\url{https://github.com/Yingchaol/Douzero_Resnet.git}找到。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提高深度强化学习在三人斗地主游戏中的表现,探索不同的架构设计和多角色测试,并引入叫分系统来协助代理决定是否成为地主。
  • 关键思路
    论文将残差网络引入模型中,结合传统的蒙特卡罗方法和多层感知器,使得模型在相同的训练时间内显著提高了胜率。
  • 其它亮点
    论文使用了开源代码,实验设计包括多角色测试和引入叫分系统,模型表现超过了现有版本的DouZero和经验丰富的人类玩家。
  • 相关研究
    最近的相关研究包括DouZero和其前身AlphaDou等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问