一块V100运行上千个智能体、数千个环境，这个「曲率引擎」框架实现RL百倍提速

深度强化学习是一种训练 AI 智能体的强大方法。然而，如何将强化学习应用于多个智能体或高维状态、观察结果、行动空间等复杂场景仍然是一个具有挑战性的问题。多智能体系统是强化学习研究和应用的前沿，尤其是那些存在多个智能体交互的系统。它们对于解决经济、自动驾驶、对话智能体、机器人学以及其他很多领域的工程和科学问题具有重要意义。

在这一问题中，训练智能体的时间是一大挑战。如果训练的智能体比较多，一个强化学习实验往往要花费数天或数周才能完成。此外，学习所需的重复次数会随着问题的复杂度呈指数级增长。

为了提高强化学习系统的吞吐量，来自 Salesforce 的研究者提出了一种名为 WarpDrive 的开源框架，来构建极其快速的（多智能体）深度强化学习（MADRL）pipeline。

论文链接：https://arxiv.org/pdf/2108.13976.pdf
项目地址：https://github.com/salesforce/warp-drive

WarpDrive 在一个 GPU 上端到端地运行整个 MADRL 工作流，使用单个数据存储进行模拟 roll-out、推理和训练。这将最小化通信和复制的成本，显著提升模拟采样和学习速率。WarpDrive 还利用 GPU 的并行能力，并行地运行模拟和每次模拟中的智能体。综合来看，这些设计选择使得运行数千个并发模拟成为可能，每个模拟包含数千个智能体，在非常大的批次上进行训练。

论文中的基准测试表明，与混合 CPU 模拟和 GPU 模型的一般实现相比，WarpDrive 实现的 RL 要快几个数量级。比如，在有 2000 个模拟、1000 个智能体的 Tag 模拟中，WarpDrive 的吞吐量实现了至少 100 倍的性能提升。

此外，研究者还将 WarpDrive 构建得非常灵活、易用、易扩展，并在现有库的基础上进行构建和补充，如 PyCUDA 和 PyTorch。

在这篇论文中，研究者概述了 WarpDrive 的设计，并展示了它在基准模拟中的吞吐量和可扩展性。最后，他们总结了未来的发展方向。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

一块V100运行上千个智能体、数千个环境，这个「曲率引擎」框架实现RL百倍提速

评论