【标题】Fast Population-Based Reinforcement Learning on a Single Machine

【作者团队】Arthur Flajolet, Claire Bizon Monroc, Karim Beguir, Thomas Pierrot

【发表日期】2022.6.17

【论文链接】https://arxiv.org/pdf/2206.08888.pdf

【推荐理由】训练智能体群体在强化学习中表现出巨大的潜力,可以稳定训练、提高探索和渐近性能,并生成多样化的解决方案。然而,实践者通常不会考虑基于人群的训练,因为它被认为要么速度太慢(按顺序实施),要么计算成本高(如果代理在独立的加速器上并行训练)。本文比较了实现并回顾了以前的研究,以表明编译和矢量化的明智使用允许在具有一个加速器的单台机器上执行基于群体的训练,与训练单个代理相比,开销最小。研究还表明,当提供少量加速器时,该协议扩展到用于超参数调整等应用的大型群体。研究者希望该研究和代码的公开发布将鼓励从业者更频繁地使用基于人群的学习来进行相同的研究和应用。

内容中包含的图片若涉及版权问题,请及时与我们联系删除