DeepMind | 可扩展强化学习的Podracer架构

【标题】Podracer architectures for scalable Reinforcement Learning 【作者团队】Matteo Hessel, Manuel Kroiss, Aidan Clark, Iurii Kemaev, John Quan, Thomas Keck, Fabio Viola, Hado van Hasselt 【论文链接】https://arxiv.org/pdf/2104.06272.pdf 【发表时间】2021.4.13 【推荐理由】本文提出了Podracer架构并已经在JAX中实现，其将该架构统称为为支持TPU Pods上可扩展RL研究而构建的研究平台，并且描述两个有效使用TPU进行大规模强化学习研究的架构（Anakin和Sebulba），分别用于训练在线代理和分解的actor-learner代理。其在可扩展性、易于实施和维护之间找到了平衡点。研究结果表明，该框架可以提供卓越的性能，并且其训练成本通常比训练缺乏并行性或TPU加速的较小规模代理的成本更小。

要支持最先进的AI研究，需要在快速原型制作，易用性和快速迭代之间取得平衡，并能够以传统上与生产系统相关的规模部署实验.TensorFlow，PyTorch和JAX等深度学习框架允许用户透明地使用加速器（例如TPU和GPU）来减轻现代深度学习系统中，减轻训练和推理的计算密集部分。使用这些框架进行深度学习的流行训练管道通常侧重于（无）监督学习。如何最好地大规模地训练强化学习（RL）代理仍然是一个活跃的研究领域。本文研究者认为TPU特别适合以可扩展，高效和可重现的方式训练RL代理。特别是，其描述两个有效使用TPU进行大规模强化学习研究的框架（Anakin和Sebulba），旨在充分利用TPU Pod上的可用资源（Google数据中心的一种特殊配置，具有通过极低延迟通信通道相互连接的多个TPU设备)。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

DeepMind | 可扩展强化学习的Podracer架构

评论