- 简介在开发先进的德州扑克AI系统时,抽象化技术因其在简化游戏复杂性方面的显著效果而受到广泛关注。本研究采用了更具体的模型——有序信号游戏,来描述德州扑克风格的游戏,并优化该模型以简化其数学表示并扩大其适用范围。通过从广义的不完全信息游戏模型转换为有序信号游戏模型,我们将以前交织在一起的信息集抽象和动作抽象分离成独立的信号抽象和动作抽象。重要的是,这种信号抽象为手牌抽象任务提供了数学框架,本文也着重讨论了这一点。此外,我们引入了一种新的共同细化原则,揭示了手牌抽象算法的极限性能。我们引入了潜在结果同构性(POI),并指出它存在过度抽象的问题。此外,我们还证明了POI是领先的基于结果的手牌抽象算法(如E[HS]和PA\&PAEMD)的常见细化,因此过度抽象也固有地影响这些算法,导致次优性能。我们的研究揭示了历史数据的遗漏是过度抽象的主要原因。为了解决这个问题,我们提出了K-Recall结果同构(KROI)来纳入缺失的信息。与POI相比,KROI更准确地反映了无损同构(LI)的真实情况,提供了更好的信号抽象分辨率。在Numeral211 Hold'em中的实验结果表明,通过KROI开发的策略比通过POI训练的策略更接近于通过LI开发的策略的可利用性。
- 图表
- 解决问题本论文旨在解决德州扑克人工智能系统开发中的信息抽象问题,通过引入有序信号游戏模型,将信息抽象和动作抽象分离,提出手牌抽象算法,并提出了一种新的共同细化原则,以提高抽象分辨率。
- 关键思路本文的关键思路是采用有序信号游戏模型,将信息抽象和动作抽象分离,提出手牌抽象算法,并提出了一种新的共同细化原则K-Recall Outcome Isomorphism(KROI),以提高抽象分辨率。
- 其它亮点本论文提出了一种新的有序信号游戏模型,将信息抽象和动作抽象分离,提出了手牌抽象算法和共同细化原则KROI,提高了抽象分辨率。实验使用Numeral211 Hold'em数据集,结果表明,使用KROI算法训练出的策略更接近于无损同构(LI)算法训练出的策略。
- 在相关研究方面,最近的研究包括《DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker》和《A Heads-Up No-Limit Texas Hold’em Poker Player: Discretized Betting Models and Automatically Generated Equilibrium-Finding Programs》。
沙发等你来抢
去评论
评论
沙发等你来抢