训练速度提高最多5.4倍，谷歌提出RL训练新范式ActorQ

此前，由谷歌大脑团队科学家 Aleksandra Faust 和研究员 Srivatsan Krishnan 发布的深度强化学习模型在解决导航、核物理、机器人和游戏等现实世界的顺序决策问题方面取得巨大进步。它很有应用前景，但缺点之一是训练时间过长。

虽然可以使用分布式计算加快复杂困难任务的强化学习的训练，但是需要数百甚至数千个计算节点，且要使用大量硬件资源，这使得强化学习训练成本变得极其高昂，同时还要考虑对环境的影响。最近的研究表明，对现有硬件进行性能优化可以减少模型训练的碳足迹（即温室气体排放总量）。

借助系统优化，可以缩短强化学习训练时间、提高硬件利用率、减少二氧化碳（CO2）排放。其中一种技术是量化，将全精度浮点（FP32）数转换为低精度（int8）数，然后使用低精度数字进行计算。量化可以节省内存成本和带宽，实现更快、更节能的计算。量化已成功应用于监督学习，以实现机器学习（ML）模型的边缘部署并实现更快的训练。同样也可以将量化应用于强化学习训练。

近日，谷歌的研究者在《Transactions of Machine Learning Research》期刊上发表了《QuaRL：快速和环境可持续强化学习的量化》，介绍了一种称为「ActorQ」的新范式。该范式使用了量化，在保持性能的同时，将强化学习训练速度提高 1.5-5.4 倍。作者证明，与全精度训练相比，碳足迹也减少了 1.9-3.8 倍。

阅读详情

内容中包含的图片若涉及版权问题，请及时与我们联系删除

训练速度提高最多5.4倍，谷歌提出RL训练新范式ActorQ

评论列表

评论