【标题】PMIC: Improving Multi-Agent Reinforcement Learning with Progressive Mutual Information Collaboration

【作者团队】Pengyi Li, Hongyao Tang, Tianpei Yang, Xiaotian Hao, Tong Sang, Yan Zheng, Jianye Hao, Matthew E.Taylor, Zhen Wang

【发表日期】2022.3.16

【论文链接】https://arxiv.org/pdf/2203.08553.pdf

【推荐理由】学习协作在多智能体强化学习 (MARL) 中至关重要。许多先前的工作通过最大化代理行为的相关性来促进协作,这通常以不同形式的互信息(MI)为特征。然而,本文揭示了强相关性可能来自次优的协作行为,而仅仅是最大化MI可能会阻碍学习向更好的协作方向发展。为此,本文提出了一种新的 MARL 框架,称为渐进式互信息协作 (PMIC),以实现更有效的 MI 驱动的协作。在 PMIC 中,其使用一种新的协作标准,由全球状态和联合行动之间的 MI 衡量。根据标准,PMIC 的关键思想是最大化与优秀协作行为相关的 MI,并最小化与劣等协作行为相关的 MI。这两个 MI 目标通过促进学习以实现更好的协作同时避免陷入次优目标,从而发挥互补作用。即PMIC 存储并逐步维护一组优越和劣质的交互体验,从中建立双 MI 神经估计器。对各种 MARL 基准的实验表明,与其他算法相比,PMIC 的性能更优越。

内容中包含的图片若涉及版权问题,请及时与我们联系删除