【标题】Mask-based Latent Reconstruction for Reinforcement Learning

【作者团队】Tao Yu, Zhizheng Zhang, Cuiling Lan, Zhibo Chen, Yan Lu

【发表日期】2022.11

【论文链接】https://arxiv.org/pdf/2201.12096.pdf

【推荐理由】视觉状态表征的质量对基于视觉的强化学习(vision-based reinforcement learning)至关重要。为了学习高效的状态表征,微软亚洲研究院的研究员们创新性地将基于掩码的建模技术(mask-based modeling)应用到强化学习中,以促进其状态表征学习。此前基于掩码的建模技术已经在 CV 和 NLP 领域中大放异彩,而这项工作是将其应用到强化学习领域帮助策略学习的首次探索。其提出了一种简单而有效的自我监督方法,即基于掩码的潜在空间重建 (MLR),以从具有空间和时间掩码像素的观察中预测潜在空间中的完整状态表示。MLR 可以在学习状态表示时更好地使用上下文信息,从而使它们更具信息性,这有助于 RL 智能体训练。广泛的实验表明, MLR 显著提高了 RL 中的采样效率,并且在多个连续的基准测试环境中优于最先进的采样效率 RL 方法。