Training Agents Inside of Scalable World Models

2025年09月29日
  • 简介
    世界模型通过视频学习通用知识,并在想象中模拟经验以训练行为,为实现智能体提供了一条可行路径。然而,以往的世界模型无法在复杂环境中准确预测物体之间的交互。我们提出了Dreamer 4,这是一种可扩展的智能体,能够在快速且精确的世界模型内部通过强化学习来解决控制任务。在复杂电子游戏《我的世界》(Minecraft)中,该世界模型能够准确预测物体交互和游戏机制,性能远超此前的各类世界模型。通过引入一种捷径强制目标函数和高效的Transformer架构,该世界模型可在单个GPU上实现实时交互式推理。此外,该模型仅需少量数据即可学习到通用的动作条件控制能力,从而能够从大量多样化的未标注视频中提取大部分知识。我们提出了一个挑战任务:仅使用离线数据在《我的世界》中获取钻石,这一设定与机器人等实际应用场景相一致——在这些场景中,通过与环境交互进行学习可能既不安全又低效。该任务要求智能体从原始像素出发,自主选择超过20,000次鼠标和键盘操作的序列。通过在想象中学习行为策略,Dreamer 4成为首个完全基于离线数据、无需与环境交互即可在《我的世界》中成功获得钻石的智能体。我们的研究为基于想象的训练提供了一种可扩展的方法,标志着迈向真正智能体的重要一步。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决在复杂环境中世界模型难以准确预测物体交互的问题,并探索仅通过离线数据训练智能体完成高难度控制任务(如在Minecraft中获取钻石)的可行性。这一问题尤其重要,因为在真实场景(如机器人控制)中,与环境交互可能代价高昂或不安全。该问题结合了世界模型精度、长期规划和离线强化学习的挑战,具有现实意义和前沿性。
  • 关键思路
    Dreamer4的核心思想是构建一个快速且准确的世界模型,在其内部通过‘想象’进行行为学习(imagination-based training),从而避免直接与环境交互。关键创新包括:使用shortcut forcing目标提升预测准确性,采用高效Transformer架构实现单GPU实时推理,并能从少量带动作数据中学习通用的动作条件建模,从而可利用大量无标签视频进行知识提取。相比以往世界模型,Dreamer4显著提升了对复杂物体交互和游戏机制的建模能力。
  • 其它亮点
    - 在Minecraft这一高度复杂的环境中,Dreamer4首次仅从离线数据(原始像素和动作序列)出发,成功完成了获取钻石的任务,需规划超过20,000步的精细操作。 - 世界模型实现了单GPU上的实时推理,具备交互潜力。 - 实验设计基于纯离线学习设定,使用多样化的无标签人类游戏视频作为预训练数据,仅用少量带动作轨迹进行微调。 - 尚未提及代码是否开源,但该方法为离线强化学习与基于模型的规划提供了可扩展范式,未来可拓展至机器人控制等实际应用。
  • 相关研究
    - Mastering Atari with Disembodied Human Imagination - Video Predictive Models for Planning: A Survey - Dreamer: Latent Dynamics for Reinforcement Learning - Transframer: A Generalist Vision Model for Video Generation and Understanding - Scaling Deep Reinforcement Learning: Grand Challenges at NeurIPS 2022
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问