【标题】Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning

【作者团队】Anton Bakhtin, David J Wu, Adam Lerer, Jonathan Gray, Athul Paul Jacob等

【发表日期】2022.10.11

【论文链接】https://arxiv.org/pdf/2210.05492.pdf

【推荐理由】无新闻外交是一个复杂的战略游戏,涉及合作和竞争,已成为多智能体人工智能研究的基准。但仅靠自我对弈不足以在涉及与人类合作的领域实现最佳性能。本文通过首先引入一种称为 DiL-piKL 的计划算法来解决这个缺点,该算法将奖励最大化策略规范化为人类模仿学习的策略。本文证明这是一个修改效用函数下的无悔学习算法。然后,本文展示了 DiL-piKL 可以扩展到被称之为 RL-DiL-piKL 的自我游戏强化学习算法,它提供了人类游戏模型,同时训练了一个能很好地响应这个人类模型的智能体。本文使用 RL-DiL-piKL 来训练命名为梁龙的智能体。在一场 200 场比赛的无新闻外交锦标赛中,两名梁龙特工的平均得分均高于所有其他参加两场以上比赛的参与者,并根据一项排名第一和第三Elo 评级模型。