MuDreamer: Learning Predictive World Models without Reconstruction

简介

DreamerV3代理最近在不同领域中展示了最先进的性能，使用像素重建损失在潜在空间中学习强大的世界模型。然而，虽然重建损失对于Dreamer的性能至关重要，但它也需要对不必要的信息进行建模。因此，当观察中存在视觉干扰时，Dreamer有时会无法感知必要的元素，这些元素对于任务解决是必要的，从而显著限制了其潜力。在本文中，我们提出了MuDreamer，这是一个强大的强化学习代理，它建立在DreamerV3算法的基础上，通过学习预测世界模型来实现，无需重建输入信号。与其依赖像素重建不同，我们通过预测环境价值函数和先前选择的动作来学习隐藏表示。与图像的预测自监督方法类似，我们发现使用批归一化对于防止学习崩溃至关重要。我们还研究了模型后验和先验损失之间的KL平衡对收敛速度和学习稳定性的影响。我们在常用的DeepMind视觉控制套件上评估了MuDreamer，并展示了与DreamerV3和其他无重建方法相比更强的对视觉干扰的鲁棒性，将环境背景替换为与任务无关的真实世界视频。我们的方法在Atari100k基准测试中也实现了可比较的性能，同时受益于更快的训练。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MuDreamer试图解决DreamerV3算法中存在的问题，即在使用像素重构损失时，模型会建模不必要的信息，导致在存在视觉干扰时无法感知关键元素，从而限制了其潜力。
关键思路

MuDreamer算法通过学习预测环境价值函数和之前选择的动作，而不是依赖于像素重构，来构建预测世界模型，从而提高了模型的鲁棒性。
其它亮点

MuDreamer在DeepMind Visual Control Suite数据集上展现出比DreamerV3和其他无像素重构方法更强的鲁棒性，同时在Atari100k基准测试上实现了可比较的性能，并且训练速度更快。
相关研究

近期在这个领域中的相关研究包括：DreamerV3算法本身，以及其他无像素重构方法，如PlaNet和SimPLe。

MuDreamer: Learning Predictive World Models without Reconstruction

提问交流

提问交流