- 简介多智能体强化学习中有效的通信协议对于促进合作和提高团队绩效至关重要。为了利用通信,许多先前的研究提出将本地信息压缩成单个消息并广播到所有可达的智能体。然而,这种简单的消息传递机制可能无法为各个智能体提供足够、关键和相关的信息,特别是在带宽严重受限的情况下。这激励我们为多智能体强化学习开发上下文感知的通信方案,旨在向不同的智能体提供个性化的消息。我们的通信协议名为CACOM,包括两个阶段。在第一阶段,智能体以广播的方式交换粗略的表示,为第二阶段提供上下文。随后,在第二阶段,智能体利用注意机制有选择地生成针对接收者的个性化消息。此外,我们采用了学习的步长量化(LSQ)技术进行消息量化,以减少通信开销。为了评估CACOM的有效性,我们将其与演员-评论家和基于价值的多智能体强化学习算法集成。在合作基准任务上的实证结果表明,在通信受限的情况下,CACOM相对于基线提供了明显的性能提升。该代码公开可用于https://github.com/LXXXXR/CACOM。
- 图表
- 解决问题本论文旨在解决多智能体强化学习中通信协议的问题,提出了一种上下文感知的通信方案,旨在为不同的智能体提供个性化的信息。
- 关键思路该方案包括两个阶段,第一阶段是智能体以广播的方式交换粗略的表示,为第二阶段提供上下文。第二阶段中,智能体利用注意力机制选择性地生成针对接收者的信息,并采用学习的步长量化技术来减少通信开销。
- 其它亮点论文在合作基准任务上进行了实验,将该方案与基线算法相结合,证明了在通信受限的情况下,CACOM相对于基线算法提供了明显的性能提升。该论文的代码公开,可在https://github.com/LXXXXR/CACOM上获得。
- 在最近的研究中,也有一些关于多智能体强化学习中通信协议的研究,如《Multi-Agent Reinforcement Learning with Communication using Sequence- and Graph-Based Encoders》和《Learning to Communicate to Solve Riddles with Deep Distributed Recurrent Q-Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢