清华大学|重新审视多智能体协作强化学习的一些常见实践

【标题】Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning

【作者团队】Wei Fu, Chao Yu, Zelai Xu

【发表日期】2022.8.7

【论文链接】https://arxiv.org/pdf/2206.07505.pdf

【推荐理由】多智能体协作强化学习（MARL）的许多进展都基于两个共同的设计原则：值分解和参数共享。这种方式的典型MARL算法将集中的Q函数分解为局部Q网络，并在智能体之间共享参数。这种算法范式可以实现集中训练和分散执行（CTDE），并在实践中实现高效学习。尽管有所有优点，但作者重新审视了这两个原则，并表明在某些情况下，例如，具有高度多模式奖励景观的环境、价值分解和参数共享可能会有问题，并导致不希望的结果。相比之下，在这些情况下，具有单个策略的策略梯度（PG）方法可以证明收敛到最优解，这部分支持了最近的一些经验观察，即PG在许多MARL试验床中是有效的。在理论分析的启发下，本文提出了针对高回报或多种突发行为实施多智能体PG算法的实用建议，并在各种领域实证验证了作者的发现。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

清华大学|重新审视多智能体协作强化学习的一些常见实践

评论