天大&西工大 | PMIC：基于渐进式互信息协作改进多智能体强化学习

【标题】PMIC: Improving Multi-Agent Reinforcement Learning with Progressive Mutual Information Collaboration

【作者团队】Pengyi Li, Hongyao Tang, Tianpei Yang, Xiaotian Hao, Tong Sang, Yan Zheng, Jianye Hao, Matthew E.Taylor, Zhen Wang

【发表日期】2022.3.16

【论文链接】https://arxiv.org/pdf/2203.08553.pdf

【推荐理由】学习协作在多智能体强化学习 (MARL) 中至关重要。许多先前的工作通过最大化代理行为的相关性来促进协作，这通常以不同形式的互信息（MI）为特征。然而，本文揭示了强相关性可能来自次优的协作行为，而仅仅是最大化MI可能会阻碍学习向更好的协作方向发展。为此，本文提出了一种新的 MARL 框架，称为渐进式互信息协作 (PMIC)，以实现更有效的 MI 驱动的协作。在 PMIC 中，其使用一种新的协作标准，由全球状态和联合行动之间的 MI 衡量。根据标准，PMIC 的关键思想是最大化与优秀协作行为相关的 MI，并最小化与劣等协作行为相关的 MI。这两个 MI 目标通过促进学习以实现更好的协作同时避免陷入次优目标，从而发挥互补作用。即PMIC 存储并逐步维护一组优越和劣质的交互体验，从中建立双 MI 神经估计器。对各种 MARL 基准的实验表明，与其他算法相比，PMIC 的性能更优越。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

天大&西工大 | PMIC：基于渐进式互信息协作改进多智能体强化学习

评论列表

评论