World-in-World: World Models in a Closed-Loop World

向作者提问

NEW

简介

生成式世界模型（WM）如今已能够以惊人的视觉真实感模拟世界，这自然引发了一个问题：它们能否赋予具身智能体用于决策的预测性感知能力？然而，对该问题的研究进展受限于零散的评估方式：大多数现有基准采用开环协议，孤立地强调视觉质量，却未能解决具身实用性这一核心问题，即世界模型是否真的有助于智能体在具身任务中取得成功？为弥补这一空白，我们推出了World-in-World——首个在闭环环境中评估世界模型的开放平台，该环境真实还原了智能体与环境之间的交互过程。World-in-World提供了一种统一的在线规划策略和标准化的动作接口（API），使不同类型的世界模型均可用于决策任务。我们精心设计了四个闭环环境，可严格评估多种世界模型，将任务成功率作为首要评估指标，突破了以往过度关注视觉质量的局限；同时，我们还首次提出了具身场景下世界模型的数据扩展规律。我们的研究揭示了三个出人意料的发现：（1）仅凭视觉质量并不能保证任务成功，可控性反而更为关键；（2）利用动作-观测数据对预训练后的模型进行扩展，比升级预训练的视频生成器更有效；（3）分配更多的推理计算资源，可显著提升世界模型在闭环环境中的表现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的生成式世界模型（WMs）虽然在视觉逼真度上取得了显著进展，但其在具身智能体决策中的实际效用尚未得到系统评估。大多数基准测试采用开环协议，仅关注生成视频的质量，忽略了WMs在闭环交互中是否真正帮助智能体完成任务这一核心问题。这是一个重要且尚未被充分解决的新问题。
关键思路

提出World-in-World平台，首次在闭环环境中系统评估世界模型的具身实用性。其关键创新在于构建统一的在线规划策略和标准化动作API，使不同类型的世界模型可在真实感模拟环境中进行闭环任务测试，以任务成功率为核心指标，而非仅仅视觉质量。
其它亮点

构建了四个闭环测试环境，强调任务成功而非视觉保真度；提出了首个面向具身场景的世界模型数据扩展定律；实验发现：视觉质量不保证任务成功、动作-观测数据的后训练扩展比升级预训练视频生成器更有效、增加推理时计算资源可显著提升性能；平台已开源，为后续研究提供开放基准。
相关研究

1. Mastering Atari with Discrete World Models 2. Dreamer: Building Predictive Models for Embodied Agents 3. PlaNet: A Deep Dynamics Model for Planning in Reinforcement Learning 4. VideoGPT: Video Generation using VQ-VAE and Transformers 5. Scalable In-Context Learning for World Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问