Learning Latent Dynamic Robust Representations for World Models

简介

视觉模型驱动的强化学习（MBRL）有望将智能体对环境基础动态的知识进行封装，从而学习一个世界模型作为有用的规划器。然而，像Dreamer这样的顶级MBRL智能体在存在外源或无关噪声的情况下往往会在视觉像素输入方面遇到困难，因为它们未能捕捉到与任务相关的特征，同时滤除无关的时空细节。为了解决这个问题，我们采用了一个时空掩蔽策略、一个双模拟原则和潜在重构相结合的方法，以捕捉环境的内生任务特定方面，有效地消除非本质信息。表示、动态和策略的联合训练通常会导致不稳定性。为了进一步解决这个问题，我们开发了一个混合循环状态空间模型（HRSSM）结构，增强状态表示的稳健性，以实现有效的策略学习。我们的实证评估表明，在一系列视觉复杂的控制任务中，如来自Matterport环境的带外源干扰的Maniskill，我们的方法显著提高了性能。我们的代码可在https://github.com/bit1029public/HRSSM上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视觉模型基础下强化学习中存在的干扰噪声问题，提出了一种结合空时遮蔽策略、双模拟原则和潜在重构的混合递归状态空间模型，以提高强化学习的性能。
关键思路

论文的关键思路是通过空时遮蔽策略、双模拟原则和潜在重构来消除干扰噪声，提高强化学习的性能。同时，通过混合递归状态空间模型来增强状态表示的鲁棒性，进一步提高策略学习的效果。
其它亮点

论文的实验表明，该方法在Maniskill等视觉复杂的控制任务中取得了显著的性能提升。此外，论文提供了代码开源。值得继续深入研究的是，如何将该方法应用于更广泛的强化学习场景，并进一步提高性能。
相关研究

与本论文相关的研究包括Dreamer等基于视觉模型的强化学习方法，以及其他一些结合空间遮蔽和双模拟原则的强化学习方法。

Learning Latent Dynamic Robust Representations for World Models

提问交流

提问交流