简介:MALib 是一个基于人口的学习的并行框架,嵌套有(多代理)强化学习 (RL) 方法,例如 Policy Space Response Oracle、Self-Play 和 Neural Fictitive Self-Play。MALib 提供了更高级别的 MARL 训练范式抽象,可以在不同的分布式计算范式上实现高效的代码重用和灵活部署。MALib 的设计也力求推动其他多智能体学习的研究,包括多智能体模仿学习和基于模型的 MARL。
基于种群的多智能体强化学习(PB-MARL)是指嵌套强化学习(RL)算法的一系列方法,这些方法通过耦合的种群动态产生自生成的任务序列。通过利用自动课程来诱导一群不同的紧急策略,PB-MARL在处理多智能体任务方面取得了令人印象深刻的成功。尽管分布式RL框架的现有技术非常出色,但由于异构策略交互所涉及的采样、训练和评估之间的多个嵌套工作负载的额外复杂性,PB-MARL对并行化训练框架提出了新的挑战。为了解决这些问题,我们提出了一个可扩展的高效计算框架。框架由三个关键部分组成:(1)集中式任务调度模型,支持自生成任务和异构策略组合的可扩展训练;(2)一个名为“教师-评估者-学习者”的编程架构,实现了训练和采样的高度并行,满足了自动课程学习的评估需求;(MARL训练范例的更高级抽象,它在不同的分布式计算范例上实现了高效的codereuseandflexibledeployments。实验表明,在一台拥有32个中央处理器内核的机器上,马利巴赫的吞吐量高于40K FPS;在多智能体训练任务中,比RLlib加速5倍,比OpenSpiel至少加速3倍。
论文链接:https://arxiv.org/abs/2106.07551
GitHub:https://github.com/sjtu-marl/malib
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢