【标题】Two-stage training algorithm for AI robot soccer

【作者团队】Taeyoung Kim, Luiz Felipe Vecchietti, Kyujin Choi, Sanem Sariel, Dongsoo Har

【论文链接】https://arxiv.org/pdf/2104.05931.pdf

【发表时间】2021.4.13

【推荐理由】本文针对CTDE框架对于异构多agent学习个体行为效率较低的问题。提出了一种新颖的两阶段异构集中训练(TSHCT)方法,该方法允许异构智能体学习多个角色并进行协作行为。在多智能体协同竞争环境下,用5V5AI机器人足球进行了实验研究。仿真结果表明,TSHCT能够有效地训练AI机器人足球队,并获得了更高的个人角色奖励和更高的总奖励。

在多智能体强化学习中,智能体的合作学习行为非常重要。在异构多智能体强化学习领域,研究群体中不同类型智能体之间的协作行为。在集中训练过程中学习一个联合动作集是获得这种协作行为的一种很有吸引力的方法,然而,这种方法对异构agent的学习性能有限。为了提高异构agent在集中训练过程中的学习性能,提出了两阶段异构集中式训练方法,允许训练异构agent的多个角色。在训练过程中,两个训练阶段是连续进行的。其中的一个是尝试根据每个代理的角色对其进行训练,目的是使每个代理的角色报酬最大化。另一个是作为一个整体对代理人进行训练,使其在学习合作行为的同时,试图最大限度地共享集体奖励,例如团队奖励。因为这两个训练过程在每个时间步长中都是按顺序进行的,所以代理可以学习如何同时最大化角色奖励和团队奖励。将该方法应用于5对5人工智能机器人足球比赛中进行验证。仿真结果表明,该方法能有效地训练机器人足球队中的机器人,与其它可用于解决多智能体协作训练问题的方法相比,获得了更高的角色报酬和团队奖励。

内容中包含的图片若涉及版权问题,请及时与我们联系删除