深度强化学习是一种训练 AI 智能体的强大方法。然而,如何将强化学习应用于多个智能体或高维状态、观察结果、行动空间等复杂场景仍然是一个具有挑战性的问题。多智能体系统是强化学习研究和应用的前沿,尤其是那些存在多个智能体交互的系统。它们对于解决经济、自动驾驶、对话智能体、机器人学以及其他很多领域的工程和科学问题具有重要意义。

在这一问题中,训练智能体的时间是一大挑战。如果训练的智能体比较多,一个强化学习实验往往要花费数天或数周才能完成。此外,学习所需的重复次数会随着问题的复杂度呈指数级增长。

为了提高强化学习系统的吞吐量,来自 Salesforce 的研究者提出了一种名为 WarpDrive 的开源框架,来构建极其快速的(多智能体)深度强化学习(MADRL)pipeline。

  • 论文链接:https://arxiv.org/pdf/2108.13976.pdf

  • 项目地址:https://github.com/salesforce/warp-drive

WarpDrive 在一个 GPU 上端到端地运行整个 MADRL 工作流,使用单个数据存储进行模拟 roll-out、推理和训练。这将最小化通信和复制的成本,显著提升模拟采样和学习速率。WarpDrive 还利用 GPU 的并行能力,并行地运行模拟和每次模拟中的智能体。综合来看,这些设计选择使得运行数千个并发模拟成为可能,每个模拟包含数千个智能体,在非常大的批次上进行训练。
论文中的基准测试表明,与混合 CPU 模拟和 GPU 模型的一般实现相比,WarpDrive 实现的 RL 要快几个数量级。比如,在有 2000 个模拟、1000 个智能体的 Tag 模拟中,WarpDrive 的吞吐量实现了至少 100 倍的性能提升。
此外,研究者还将 WarpDrive 构建得非常灵活、易用、易扩展,并在现有库的基础上进行构建和补充,如 PyCUDA 和 PyTorch。
在这篇论文中,研究者概述了 WarpDrive 的设计,并展示了它在基准模拟中的吞吐量和可扩展性。最后,他们总结了未来的发展方向。

内容中包含的图片若涉及版权问题,请及时与我们联系删除