【标题】Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning

【作者团队】Wei Fu, Chao Yu, Zelai Xu

【发表日期】2022.8.7

【论文链接】https://arxiv.org/pdf/2206.07505.pdf

【推荐理由】多智能体协作强化学习(MARL)的许多进展都基于两个共同的设计原则:值分解和参数共享。这种方式的典型MARL算法将集中的Q函数分解为局部Q网络,并在智能体之间共享参数。这种算法范式可以实现集中训练和分散执行(CTDE),并在实践中实现高效学习。尽管有所有优点,但作者重新审视了这两个原则,并表明在某些情况下,例如,具有高度多模式奖励景观的环境、价值分解和参数共享可能会有问题,并导致不希望的结果。相比之下,在这些情况下,具有单个策略的策略梯度(PG)方法可以证明收敛到最优解,这部分支持了最近的一些经验观察,即PG在许多MARL试验床中是有效的。在理论分析的启发下,本文提出了针对高回报或多种突发行为实施多智能体PG算法的实用建议,并在各种领域实证验证了作者的发现。