【标题】CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning

【作者团队】Jian Zhao, Xunhan Hu, Mingyu Yang, Wengang Zhou, Jiangcheng Zhu, Houqiang Li

【发表日期】2022.3.16

【论文链接】https://arxiv.org/pdf/2203.08412.pdf

【推荐理由】由于多智能体强化学习(multi-agent reinforction learning,MARL)任务的部分可观测性和通信约束,分散执行集中训练(centralized training with discentral execution,CTDE)已成为应用最广泛的MARL范式之一。在CTDE中,集中信息用于通过混合网络学习团队奖励的分配,而个人Q值的学习通常基于局部观察。全局观测的效用不足将降低在充满挑战的环境中的性能。为此,本文提出了一种新颖的集中式教师与分散式学生(CTDS)框架,该框架由教师模型和学生模型组成。即教师模型通过学习以全局观察为条件的个人Q值来分配团队奖励,而学生模型则利用部分观察来近似教师模型估计的Q值。通过这种方式,CTDS平衡了训练期间对全局观察的充分利用和在线推理分散执行的可行性。CTDS框架是通用的,可以应用于现有的CTDE方法,以提高其性能。在具有挑战性的星际争霸II微观管理任务上进行了实验,以测试该方法的有效性,结果表明CTDS优于现有的基于价值的MARL方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除