根特大学: Pietro Mazzaglia | 基于无监督模型的像素数据有效控制预训练

【标题】Unsupervised Model-based Pre-training for Data-efficient Control from Pixels

【作者团队】Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Piché, Bart Dhoedt, Aaron Courville, Alexandre Lacoste

【发表日期】2022.9.24

【论文链接】https://arxiv.org/pdf/2209.12016.pdf

【推荐理由】从视觉感官数据控制人工智能体是一项艰巨的任务。强化学习（RL）算法可以在这方面取得成功，但需要在代理和环境之间进行大量交互。为了缓解这个问题，无监督RL建议采用自我监督的交互和学习，以便更快地适应未来的任务。然而，目前的无监督策略是否能提高泛化能力尚不清楚，尤其是在视觉控制环境中。本文设计了一种有效的无监督RL策略，用于数据高效的视觉控制。首先，研究表明，使用无监督RL收集的数据预先训练的世界模型可以促进适应未来任务。然后，分析了几种设计选择，以有效地适应，有效地重用代理预先训练的组件，并在想象中学习和规划，使用本文称之为Dyna MPC的混合规划器。通过结合大规模实证研究的结果建立了一种方法，该方法可以显著提高无监督RL基准的性能，需要20×更少的数据来匹配受监督方法的性能。该方法在Real Word RL基准测试中也表现出了良好的性能，同时表明了该方法适用于噪声环境。