强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

论文链接：https://arxiv.org/pdf/2211.03959

在过去的几年中，强化学习(RL)与深度学习的结合取得了快速的进展。从游戏到机器人的各种突破都激发了人们对设计复杂的RL算法和系统的兴趣。然而，RL中普遍采用的工作流程是学习tabula rasa，这可能导致计算效率低下。这就妨碍了RL算法的持续部署，并可能排除没有大规模计算资源的研究人员。在机器学习的许多其他领域，预训练范式已被证明在获取可迁移知识方面是有效的，可用于各种下游任务。最近，我们看到了对深度RL预训练的兴趣激增，结果很有希望。然而，许多研究都是基于不同的实验设置。由于强化学习的性质，该领域的预训练面临着独特的挑战，因此需要新的设计原则。本文系统地回顾了深度强化学习预训练方面的现有工作，对这些方法进行了分类，讨论了每个子领域，并对开放问题和未来方向提出了关注。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

评论列表

评论