- 简介生成式世界模型(WM)如今已能够以惊人的视觉真实感模拟世界,这自然引发了一个问题:它们能否赋予具身智能体用于决策的预测性感知能力?然而,对该问题的研究进展受限于零散的评估方式:大多数现有基准采用开环协议,孤立地强调视觉质量,却未能解决具身实用性这一核心问题,即世界模型是否真的有助于智能体在具身任务中取得成功?为弥补这一空白,我们推出了World-in-World——首个在闭环环境中评估世界模型的开放平台,该环境真实还原了智能体与环境之间的交互过程。World-in-World提供了一种统一的在线规划策略和标准化的动作接口(API),使不同类型的世界模型均可用于决策任务。我们精心设计了四个闭环环境,可严格评估多种世界模型,将任务成功率作为首要评估指标,突破了以往过度关注视觉质量的局限;同时,我们还首次提出了具身场景下世界模型的数据扩展规律。我们的研究揭示了三个出人意料的发现:(1)仅凭视觉质量并不能保证任务成功,可控性反而更为关键;(2)利用动作-观测数据对预训练后的模型进行扩展,比升级预训练的视频生成器更有效;(3)分配更多的推理计算资源,可显著提升世界模型在闭环环境中的表现。
-
- 图表
- 解决问题现有的生成式世界模型(WMs)虽然在视觉逼真度上取得了显著进展,但其在具身智能体决策中的实际效用尚未得到系统评估。大多数基准测试采用开环协议,仅关注生成视频的质量,忽略了WMs在闭环交互中是否真正帮助智能体完成任务这一核心问题。这是一个重要且尚未被充分解决的新问题。
- 关键思路提出World-in-World平台,首次在闭环环境中系统评估世界模型的具身实用性。其关键创新在于构建统一的在线规划策略和标准化动作API,使不同类型的世界模型可在真实感模拟环境中进行闭环任务测试,以任务成功率为核心指标,而非仅仅视觉质量。
- 其它亮点构建了四个闭环测试环境,强调任务成功而非视觉保真度;提出了首个面向具身场景的世界模型数据扩展定律;实验发现:视觉质量不保证任务成功、动作-观测数据的后训练扩展比升级预训练视频生成器更有效、增加推理时计算资源可显著提升性能;平台已开源,为后续研究提供开放基准。
- 1. Mastering Atari with Discrete World Models 2. Dreamer: Building Predictive Models for Embodied Agents 3. PlaNet: A Deep Dynamics Model for Planning in Reinforcement Learning 4. VideoGPT: Video Generation using VQ-VAE and Transformers 5. Scalable In-Context Learning for World Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流