- 简介人工智能在纸牌游戏中的应用一直是人工智能研究中的热门话题。近年来,像麻将和德州扑克这样复杂的纸牌游戏已经被解决,相应的人工智能程序已经达到了人类专家的水平。然而,斗地主这个游戏由于其广阔的状态/动作空间和涉及竞争和合作的独特特征,使得这个游戏极其难以解决。使用深度蒙特卡罗算法框架训练的RL模型DouZero在斗地主中表现出色。然而,其简化的游戏环境与实际的斗地主环境存在差异,其表现距离人类专家还有相当的距离。本文通过使用强化学习修改深度蒙特卡罗算法框架,获得了一个能够同时估计胜率和期望的神经网络。使用期望修剪动作空间,并基于胜率生成策略。该RL模型在真实的斗地主环境中进行训练,并在公开可用的模型中达到了最先进的水平。
- 图表
- 解决问题本文试图解决如何在实际的斗地主环境中训练出一个性能优秀的强化学习模型的问题。该问题的挑战在于斗地主的庞大的状态/行动空间和涉及竞争和合作的独特特征,使得该游戏极其难以解决。
- 关键思路本文修改了深度蒙特卡罗算法框架,使用强化学习来获得同时估计胜率和期望的神经网络。使用期望来剪枝行动空间,并基于胜率生成策略。该RL模型在现实的斗地主环境中训练,取得了公开可用模型中的最新水平。
- 其它亮点本文的亮点包括使用强化学习训练出一个性能优秀的斗地主AI模型,并在实际斗地主环境中进行了训练和测试。实验结果表明,该模型在斗地主中的表现已经接近于人类专家。此外,作者还提供了开源代码和数据集,方便其他研究者进行进一步的研究和应用。
- 最近在斗地主AI领域的相关研究包括DouZero和其它基于强化学习的模型,以及一些基于规则和搜索的模型。
沙发等你来抢
去评论
评论
沙发等你来抢