【论文标题】RLCFR: Minimize counterfactual regret by deep reinforcement learning(RLCFR:通过深度强化学习最小化反事实后悔)

【作者团队】Huale Li, Xuan Wang, Fengwei Jia, Yulin Wu

【作者单位】School of Computer Science and Technology, Harbin Institute of Technology

【论文链接】https://www.sciencedirect.com/science/article/pii/S0957417421013063#!

【推荐理由】反事实后悔最小化 (CFR) 是一种用于处理具有不完全信息的两人零和博弈决策问题的主要方法。与以往主要探索解决大规模问题或加速求解效率的研究不同,本文提出了一个框架 RLCFR,旨在提高 CFR 方法的泛化能力。在 RLCFR 中,游戏策略是通过强化学习 (RL) 框架中基于 CFR 的方法来解决的。迭代交互策略更新的动态过程被建模为马尔可夫决策过程(MDP)。本文的方法学习策略以在迭代过程中选择合适的后悔更新方法。此外,还制定了逐步奖励函数来学习动作策略,这与迭代策略在每一步的执行情况成正比。在各种游戏上的大量实验结果表明,与现有的最先进方法相比,本文方法的泛化能力更高。

内容中包含的图片若涉及版权问题,请及时与我们联系删除