【标题】Unsupervised Model-based Pre-training for Data-efficient Control from Pixels

【作者团队】Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Piché, Bart Dhoedt, Aaron Courville, Alexandre Lacoste

【发表日期】2022.9.24

【论文链接】https://arxiv.org/pdf/2209.12016.pdf

【推荐理由】从视觉感官数据控制人工智能体是一项艰巨的任务。强化学习(RL)算法可以在这方面取得成功,但需要在代理和环境之间进行大量交互。为了缓解这个问题,无监督RL建议采用自我监督的交互和学习,以便更快地适应未来的任务。然而,目前的无监督策略是否能提高泛化能力尚不清楚,尤其是在视觉控制环境中。本文设计了一种有效的无监督RL策略,用于数据高效的视觉控制。首先,研究表明,使用无监督RL收集的数据预先训练的世界模型可以促进适应未来任务。然后,分析了几种设计选择,以有效地适应,有效地重用代理预先训练的组件,并在想象中学习和规划,使用本文称之为Dyna MPC的混合规划器。通过结合大规模实证研究的结果建立了一种方法,该方法可以显著提高无监督RL基准的性能,需要20×更少的数据来匹配受监督方法的性能。该方法在Real Word RL基准测试中也表现出了良好的性能,同时表明了该方法适用于噪声环境。