系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

近年来，强化学习 (RL) 在深度学习的带动下发展迅速，从游戏到机器人领域的各种突破，激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而，现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习，难以利用预先获取的先验知识来辅助决策，导致很大的计算开销。

而在监督学习领域，预训练范式已经被验证为有效的获得可迁移先验知识的方式，通过在大规模数据集上进行预训练，网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试，尤其是近段时间关于 “通才” 智能体 [1, 2] 的研究，让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [3] 那样的通用预训练模型。

然而，预训练在 RL 领域的应用面临着诸多挑战，例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时，过往研究考虑的实验设定和方法存在很大差异，这令研究者很难在现实场景下设计合适的预训练模型。

为了梳理预训练在 RL 领域的发展以及未来可能的发展方向，来自上海交通大学和腾讯的研究者撰文综述，讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题。

论文地址：https://arxiv.org/pdf/2211.03959.pdf

阅读详情

内容中包含的图片若涉及版权问题，请及时与我们联系删除

系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

评论列表

评论