Accurate and Efficient World Modeling with Masked Latent Transformers

2025年07月05日
  • 简介
    Dreamer算法最近通过使用模拟轨迹训练强大的智能体,在多种环境领域中取得了显著的性能表现。然而,由于其世界模型潜在空间的压缩特性,可能会导致关键信息的丢失,从而对智能体的性能产生负面影响。近期的一些方法,例如$\Delta$-IRIS和DIAMOND,通过训练更加精确的世界模型来解决这一局限性。然而,这些方法需要直接从像素数据中训练智能体,这降低了训练效率,并使智能体无法利用世界模型所学到的内部表征。在本研究中,我们提出了一种既准确又高效的世界模型构建方法。我们引入了EMERALD(Efficient MaskEd latent tRAnsformer worLD model,高效掩码潜变量Transformer世界模型),该模型采用具有MaskGIT预测能力的空间潜变量状态,在潜空间中生成精确的轨迹,从而提升智能体的表现。在Crafter基准测试中,EMERALD实现了新的最先进性能,成为首个在1000万环境步数内超越人类专家表现的方法。我们的方法在评估过程中还成功解锁了全部22项Crafter成就,至少各达成一次。
  • 作者讲解
  • 图表
  • 解决问题
    Dreamer算法在多个环境中表现优异,但其世界模型的潜在空间压缩导致关键信息丢失,影响代理性能。现有方法如Δ-IRIS和DIAMOND虽然提升了世界模型的准确性,但需要直接从像素训练代理,降低了训练效率,并限制了代理对世界模型内部表示的利用。
  • 关键思路
    论文提出EMERALD,一种结合空间潜在状态与MaskGIT预测机制的世界模型,旨在提高潜在空间轨迹生成的准确性并提升代理性能。该方法避免了直接从像素训练代理,从而保持训练效率,同时充分利用世界模型的潜在表示能力。
  • 其它亮点
    1. EMERALD在Crafter基准上实现了新的SOTA性能,成为首个在10M环境步数内超越人类专家表现的方法。 2. 成功解锁评估过程中全部22个Crafter成就。 3. 实验设计关注潜在空间建模精度与代理性能之间的关系。 4. 使用Crafter数据集进行评估,强调任务复杂性与长期规划能力。 5. 未来研究方向包括进一步优化潜在空间预测机制以及探索EMERALD在其他强化学习任务中的泛化能力。
  • 相关研究
    1. Delta-IRIS: Learning Action-Invariant Dynamics for Imitation Learning 2. DIAMOND: Model-Based Reinforcement Learning with Disentangled Latent Dynamics 3. Mastering Atari Games with Limited Data 4. Planning with Diffusion Policies in Latent Space 5. World Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问