Diffusion for World Modeling: Visual Details Matter in Atari

2024年05月20日
  • 简介
    世界模型是一种有前途的方法,可以以安全和高效的方式训练强化学习智能体。最近的世界模型主要通过离散潜变量序列来模拟环境动态。然而,这种压缩到紧凑的离散表示可能会忽略对于强化学习重要的视觉细节。同时,扩散模型已成为图像生成的主要方法,挑战了建模离散潜变量的成熟方法。受这种范式转变的启发,我们引入了DIAMOND(扩散作为环境梦想的模型),这是一个在扩散世界模型中训练的强化学习智能体。我们分析了使扩散适用于世界建模所需的关键设计选择,并展示了如何通过改进视觉细节来提高智能体性能。DIAMOND在竞争横跨Atari 100k基准测试的平均人类归一化分数为1.46,这是完全在世界模型中训练的智能体的新最佳表现。为了促进未来关于扩散用于世界建模的研究,我们在https://github.com/eloialonso/diamond发布了我们的代码、智能体和可玩的世界模型。
  • 图表
  • 解决问题
    本文旨在通过引入扩散模型作为环境梦想的模型,解决训练强化学习代理的安全性和样本效率问题。同时,该研究还试图解决当前世界模型仅使用离散潜变量建模可能会忽略重要视觉细节的问题。
  • 关键思路
    本文提出了DIAMOND(DIffusion As a Model Of eNvironment Dreams),这是一个在扩散世界模型中训练的强化学习代理。该模型通过改进视觉细节来提高代理的性能表现。
  • 其它亮点
    本文的实验结果表明,DIAMOND在Atari 100k基准测试中取得了1.46的人类标准化分数,成为完全在世界模型中训练的最佳代理。作者还公开了他们的代码、代理和可玩世界模型,以促进未来关于扩散世界模型的研究。
  • 相关研究
    最近的相关研究包括使用离散潜变量建模的世界模型以及使用扩散模型生成图像的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问