- 简介Dreamer算法最近通过使用模拟轨迹训练强大的智能体,在多种环境领域中取得了显著的性能表现。然而,由于其世界模型潜在空间的压缩特性,可能会导致关键信息的丢失,从而对智能体的性能产生负面影响。近期的一些方法,例如$\Delta$-IRIS和DIAMOND,通过训练更加精确的世界模型来解决这一局限性。然而,这些方法需要直接从像素数据中训练智能体,这降低了训练效率,并使智能体无法利用世界模型所学到的内部表征。在本研究中,我们提出了一种既准确又高效的世界模型构建方法。我们引入了EMERALD(Efficient MaskEd latent tRAnsformer worLD model,高效掩码潜变量Transformer世界模型),该模型采用具有MaskGIT预测能力的空间潜变量状态,在潜空间中生成精确的轨迹,从而提升智能体的表现。在Crafter基准测试中,EMERALD实现了新的最先进性能,成为首个在1000万环境步数内超越人类专家表现的方法。我们的方法在评估过程中还成功解锁了全部22项Crafter成就,至少各达成一次。
-
- 图表
- 解决问题Dreamer算法在多个环境中表现优异,但其世界模型的潜在空间压缩导致关键信息丢失,影响代理性能。现有方法如Δ-IRIS和DIAMOND虽然提升了世界模型的准确性,但需要直接从像素训练代理,降低了训练效率,并限制了代理对世界模型内部表示的利用。
- 关键思路论文提出EMERALD,一种结合空间潜在状态与MaskGIT预测机制的世界模型,旨在提高潜在空间轨迹生成的准确性并提升代理性能。该方法避免了直接从像素训练代理,从而保持训练效率,同时充分利用世界模型的潜在表示能力。
- 其它亮点1. EMERALD在Crafter基准上实现了新的SOTA性能,成为首个在10M环境步数内超越人类专家表现的方法。 2. 成功解锁评估过程中全部22个Crafter成就。 3. 实验设计关注潜在空间建模精度与代理性能之间的关系。 4. 使用Crafter数据集进行评估,强调任务复杂性与长期规划能力。 5. 未来研究方向包括进一步优化潜在空间预测机制以及探索EMERALD在其他强化学习任务中的泛化能力。
- 1. Delta-IRIS: Learning Action-Invariant Dynamics for Imitation Learning 2. DIAMOND: Model-Based Reinforcement Learning with Disentangled Latent Dynamics 3. Mastering Atari Games with Limited Data 4. Planning with Diffusion Policies in Latent Space 5. World Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流