MuDreamer: Learning Predictive World Models without Reconstruction

2024年05月23日
  • 简介
    DreamerV3代理最近在不同领域中展示了最先进的性能,使用像素重建损失在潜在空间中学习强大的世界模型。然而,虽然重建损失对于Dreamer的性能至关重要,但它也需要对不必要的信息进行建模。因此,当观察中存在视觉干扰时,Dreamer有时会无法感知必要的元素,这些元素对于任务解决是必要的,从而显著限制了其潜力。在本文中,我们提出了MuDreamer,这是一个强大的强化学习代理,它建立在DreamerV3算法的基础上,通过学习预测世界模型来实现,无需重建输入信号。与其依赖像素重建不同,我们通过预测环境价值函数和先前选择的动作来学习隐藏表示。与图像的预测自监督方法类似,我们发现使用批归一化对于防止学习崩溃至关重要。我们还研究了模型后验和先验损失之间的KL平衡对收敛速度和学习稳定性的影响。我们在常用的DeepMind视觉控制套件上评估了MuDreamer,并展示了与DreamerV3和其他无重建方法相比更强的对视觉干扰的鲁棒性,将环境背景替换为与任务无关的真实世界视频。我们的方法在Atari100k基准测试中也实现了可比较的性能,同时受益于更快的训练。
  • 作者讲解
  • 图表
  • 解决问题
    MuDreamer试图解决DreamerV3算法中存在的问题,即在使用像素重构损失时,模型会建模不必要的信息,导致在存在视觉干扰时无法感知关键元素,从而限制了其潜力。
  • 关键思路
    MuDreamer算法通过学习预测环境价值函数和之前选择的动作,而不是依赖于像素重构,来构建预测世界模型,从而提高了模型的鲁棒性。
  • 其它亮点
    MuDreamer在DeepMind Visual Control Suite数据集上展现出比DreamerV3和其他无像素重构方法更强的鲁棒性,同时在Atari100k基准测试上实现了可比较的性能,并且训练速度更快。
  • 相关研究
    近期在这个领域中的相关研究包括:DreamerV3算法本身,以及其他无像素重构方法,如PlaNet和SimPLe。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问