- 简介在开发高级德州扑克AI系统的过程中,由于其在简化游戏复杂性方面的显著效果,抽象技术已经引起了广泛关注。本研究采用了更具体的模型——有序信号游戏来描述德州扑克风格的游戏,并对该模型进行了优化,以简化其数学表示并扩大其适用范围。通过从广泛的不完全信息游戏模型转换为有序信号游戏模型,我们将先前交织在一起的信息集抽象和行动抽象分离成独立的信号抽象和行动抽象。重要的是,这种信号抽象为手牌抽象任务提供了数学框架,本文对此进行了重点讨论。此外,我们引入了一种新的共同细化原则,揭示了手牌抽象算法的极限性能。我们介绍了潜在结果同构(POI),并指出它存在过度抽象的问题。此外,我们证明了POI对于基于结果的手牌抽象算法(如E[HS]和PA&PAEMD)是一种常见的细化方法。因此,过度抽象也固有地影响这些算法,导致次优性能。我们的调查揭示了历史数据的省略是过度抽象的主要原因。为了解决这个问题,我们提出了K-Recall结果同构(KROI)来纳入缺失的信息。与POI相比,KROI更准确地反映了无损同构(LI)这一基本事实,提供了更好的信号抽象分辨率。在Numeral211 Hold'em中的实验结果表明,通过KROI开发的策略比通过POI训练的策略更接近于通过LI开发的策略的可利用性。
- 图表
- 解决问题本论文旨在通过采用有序信号游戏模型,将德州扑克游戏的复杂性简化,优化其数学表示并扩大其适用范围,从而解决手牌抽象问题。
- 关键思路通过将不完全信息游戏模型转换为有序信号游戏模型,将信息集抽象和行动抽象分离,提出了一种新的信号抽象数学框架,解决了手牌抽象问题。
- 其它亮点论文提出了潜在结果同构(POI)和K-Recall结果同构(KROI)算法,并发现历史数据的遗漏是过度抽象的主要原因,提出了KROI算法来解决这个问题。实验结果表明,使用KROI算法训练出的策略能够更接近于无损同构(LI)的策略。
- 最近的相关研究包括:E[HS]和PA&PAEMD等基于结果的手牌抽象算法,以及其他信号抽象算法,如POI。
沙发等你来抢
去评论
评论
沙发等你来抢