- 简介最近的无模型强化学习(RL)方法在游戏环境中展示了与人类水平相当的有效性,但是在视觉导航等日常任务中,它们的成功受到了限制,特别是在出现明显的外观变化时。这种限制源于(i)样本效率低和(ii)对训练场景过度拟合。为了解决这些挑战,我们提出了一个世界模型,使用(i)对比无监督学习和(ii)干预不变正则化来学习不变特征。学习世界动态的显式表示即世界模型,提高了样本效率,而对比学习隐含地强制学习不变特征,从而提高了泛化能力。然而,对比损失的朴素集成到世界模型中会失败,因为世界模型为基础的RL方法独立地优化表示学习和代理策略,缺乏对视觉编码器的监督信号。为了解决这个问题,我们提出了一种干预不变正则化器,采用深度预测、图像去噪等辅助任务的形式,明确强制执行对样式干预的不变性。我们的方法优于当前最先进的基于模型和无模型RL方法,并且在iGibson基准测试中的分布点导航任务上表现显著。我们进一步证明,我们的方法仅使用视觉观察就优于最近的基于语言引导的点导航基础模型,这对于在计算能力受限的机器人上部署至关重要。最后,我们证明了我们提出的模型在Gibson基准测试的感知模块的模拟到现实的转移方面表现出色。
-
- 图表
- 解决问题提高强化学习在日常任务中的表现,特别是在外观变化较大的情况下
- 关键思路使用对比无监督学习和干预不变正则化的世界模型,学习不变特征,提高样本效率和泛化能力,并通过辅助任务显式地强制执行干预不变性
- 其它亮点论文提出的方法在iGibson基准测试中表现优于当前最先进的基于模型和模型自由的强化学习方法,并且仅使用视觉观察就优于最近的语言引导基础模型,同时在Gibson基准测试上表现出良好的模拟到现实的转移能力
- 当前的相关研究包括使用世界模型的强化学习方法以及对比无监督学习的应用,例如World Models、Dreamer和CURL
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流