- 简介有效的行动抽象在应对不完全信息广阔形式博弈(IIEFGs)中的大规模行动空间挑战中至关重要。然而,由于IIEFGs中巨大的状态空间和计算复杂性,现有方法通常依赖于固定的抽象,导致性能不佳。为此,我们介绍了RL-CFR,一种新颖的强化学习(RL)方法,用于动态行动抽象。RL-CFR建立在我们创新的马尔可夫决策过程(MDP)公式化基础上,其中状态对应于公共信息,行动表示为指示特定行动抽象的特征向量。奖励定义为所选和默认行动抽象之间的预期收益差异。RL-CFR构建了一个带有RL引导行动抽象的博弈树,并利用反事实遗憾最小化(CFR)进行策略推导。令人印象深刻的是,它可以从头开始训练,实现更高的期望收益,而不增加CFR求解时间。在Heads-up No-limit Texas Hold'em实验中,RL-CFR优于ReBeL的复制和Slumbot,分别展示了$64\pm 11$和$84\pm 17$ mbb/hand的显着胜率差距。
- 图表
- 解决问题解决问题:论文旨在解决Imperfect Information Extensive-Form Games(IIEFGs)中大动作空间的挑战,提出一种动态动作抽象的方法。
- 关键思路关键思路:提出了一种基于强化学习的动态动作抽象方法RL-CFR,使用MDP表示状态,将动作表示为特征向量,利用CFR进行策略推导,通过RL引导动作抽象的方式构建游戏树。
- 其它亮点其他亮点:RL-CFR可以从头开始训练,而不需要增加CFR解决时间,实验结果表明,RL-CFR在Heads-up No-limit Texas Hold'em中的表现优于ReBeL和Slumbot,并且具有显著的胜率差距。
- 相关研究:最近的相关研究包括ReBeL和Slumbot。
沙发等你来抢
去评论
评论
沙发等你来抢