【标题】An Analysis of Discretization Methods for Communication Learning with Multi-Agent Reinforcement Learning

【作者团队】Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper

【发表日期】2022.4.12

【论文链接】https://arxiv.org/pdf/2204.05669.pdf

【推荐理由】当智能体无法观察环境的完整状态时,通信在多智能体强化学习中至关重要。允许在智能体之间进行学习通信的最常见方法是使用可区分的通信通道,该通道允许梯度作为反馈形式在智能体之间流动。然而,当我们想要使用离散消息来减少消息大小时,这是具有挑战性的,因为梯度不能通过离散的通信通道流动。以前的工作提出的方法在不同的架构和环境中进行测试,很难进行比较。作者在通信学习的背景下使用来自其他智能体的梯度进行此比较,并在多个环境中执行测试。结果表明,没有一种方法在所有环境中都是最好的。离散化方法的最佳选择很大程度上取决于环境。然而,离散正则化单元 (DRU)、直通 DRU 和直通 gumbel softmax 在所有测试环境中显示出最一致的结果。因此,这些方法被证明是一般使用的最佳选择。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除