A Policy-Gradient Approach to Solving Imperfect-Information Games with Iterate Convergence

2024年08月01日
  • 简介
    政策梯度方法已成为任何单智能体强化学习工具箱的基本组成部分,因为它们结合了理想的属性:迭代收敛、有效利用随机轨迹反馈和理论上可靠的避免重要性采样校正。然而,在多智能体不完全信息设置(广义博弈)中,尚不清楚是否可以保证相同的期望,同时保留理论保证。相反,广义博弈的可靠方法依赖于近似反事实值(而不是Q值),这与政策梯度方法不兼容。在本文中,我们研究了政策梯度方法是否可以安全地用于两人零和不完全信息广义博弈(EFGs)。我们建立了积极的结果,首次表明政策梯度方法在自我对弈中可以导致可证明的最佳迭代收敛到正则化纳什均衡。
  • 图表
  • 解决问题
    研究如何在多智能体不完全信息博弈中使用策略梯度方法,以实现收敛、高效利用随机轨迹反馈和避免重要性采样校正等理想特性。
  • 关键思路
    通过在两人零和不完全信息博弈中进行自我对弈,证明了策略梯度方法可以实现最优迭代收敛到一个正则化的纳什均衡。
  • 其它亮点
    论文提出的方法在两人零和不完全信息博弈中实现了最优迭代收敛,具有理论保证。实验使用了多个数据集,通过自我对弈进行验证,并且提供了开源代码。
  • 相关研究
    近年来,多智能体不完全信息博弈领域的相关研究包括《Multi-Agent Reinforcement Learning in Sequential Social Dilemmas》、《Deep Reinforcement Learning for Strategic Decision Making》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论