
论文链接:https://arxiv.org/pdf/2211.03959
在过去的几年中,强化学习(RL)与深度学习的结合取得了快速的进展。从游戏到机器人的各种突破都激发了人们对设计复杂的RL算法和系统的兴趣。然而,RL中普遍采用的工作流程是学习tabula rasa,这可能导致计算效率低下。这就妨碍了RL算法的持续部署,并可能排除没有大规模计算资源的研究人员。在机器学习的许多其他领域,预训练范式已被证明在获取可迁移知识方面是有效的,可用于各种下游任务。最近,我们看到了对深度RL预训练的兴趣激增,结果很有希望。然而,许多研究都是基于不同的实验设置。由于强化学习的性质,该领域的预训练面临着独特的挑战,因此需要新的设计原则。本文系统地回顾了深度强化学习预训练方面的现有工作,对这些方法进行了分类,讨论了每个子领域,并对开放问题和未来方向提出了关注。内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢