- 简介多智能体强化学习(MARL)与多智能体路径规划(MAPF)结合的方法因其高效性和可扩展性而备受关注。一些MARL-MAPF方法选择使用通信来丰富一个智能体所能感知的信息。然而,现有的方法在结构化环境、高障碍密度和高智能体数量的情况下仍然存在困难。为了进一步提高基于通信的MARL-MAPF求解器的性能,我们提出了一种新方法,即集成优先级混合策略(EPH)。我们首先提出了一个选择性通信块,以收集更丰富的信息,以便在多智能体环境中更好地协调智能体,并使用基于Q学习的算法训练模型。我们进一步引入了三种先进的推理策略,旨在在执行阶段增强性能。首先,我们将神经策略与单智能体专家指导相结合,用于导航无冲突区域。其次,我们提出了基于Q值的方法,用于优先解决冲突和死锁情况。最后,我们引入了一种强大的集成方法,可以高效地收集多种可能的解决方案中的最佳解决方案。我们在复杂的多智能体环境中对EPH进行了实证评估,并展示了与MAPF的最新神经方法相比具有竞争力的性能。我们在https://github.com/ai4co/eph-mapf上开源了我们的代码。
- 图表
- 解决问题本论文旨在解决多智能体路径规划(MAPF)中的协调问题,通过提出一种新的方法——集成优先级混合策略(EPH)来提高通信型MARL-MAPF求解器的性能。
- 关键思路论文提出了一种选择性通信块,通过Q学习算法训练模型,以收集更丰富的信息来加强多智能体环境中的智能体协调,并提出了三种高级推理策略来增强执行阶段的性能。
- 其它亮点论文在复杂的多智能体环境中进行了实证评估,并展示了与MAPF领域的最新神经方法相比具有竞争性的性能。作者开源了他们的代码。
- 在最近的相关研究中,也有一些基于MARL-MAPF的方法,例如“DIAL”和“MADDPG”等。
沙发等你来抢
去评论
评论
沙发等你来抢