- 简介随着世界模型在具身人工智能(Embodied AI)领域中日益受到关注,越来越多的研究尝试将视频基础模型用作预测性世界模型,以支持诸如3D预测或交互式生成等下游具身任务。然而,在深入探索这些下游任务之前,视频基础模型仍有两个关键问题尚未解决:(1)其生成泛化能力是否足以在人类观察者眼中保持感知上的保真度;(2)它们是否具备足够的鲁棒性,能够作为现实世界中具身智能体的通用先验知识。为了提供一个标准化的框架来回答这些问题,我们提出了具身图灵测试基准——WoW-World-Eval(Wow,wo,val)。该基准建立在609段机器人操作数据之上,考察五个核心能力,包括感知、规划、预测、泛化和执行。我们提出了一套包含22项指标的综合评估协议,用于评估模型的生成能力,其整体得分与人类偏好的皮尔逊相关系数超过0.93,为人类图灵测试建立了可靠的评估基础。在Wow-wo-val上的实验结果显示,模型在长视野规划任务上的得分为仅17.27,在物理一致性方面的最高得分仅为68.02,表明其在时空一致性和物理推理方面仍存在明显局限。针对逆动力学模型图灵测试(Inverse Dynamic Model Turing Test),我们首次采用IDM来评估视频基础模型在真实世界中的执行准确性。然而,大多数模型的成功率几乎降至0%,而WoW模型仍能保持40.74%的成功率。这些结果揭示了生成视频与真实世界之间仍存在显著差距,凸显了在具身人工智能中对世界模型进行系统性基准评测的紧迫性与必要性。
-
- 图表
- 解决问题论文试图解决视频基础模型作为具身智能中的世界模型时,其生成泛化能力是否足以保持人类感知下的真实感,以及是否具备足够的鲁棒性作为现实世界具身代理的通用先验。这是一个关键但尚未被系统评估的问题,尤其在迈向真正可部署的具身AI系统时显得尤为紧迫。
- 关键思路提出名为WoW-World-Eval(Wow-wo-val)的标准化基准——即‘具身图灵测试’,用于全面评估视频基础模型在具身环境中的表现。该基准围绕机器人操作数据构建,涵盖感知、规划、预测、泛化与执行五大核心能力,并设计了22项量化指标,其综合得分与人类偏好高度相关(>0.93),为未来世界模型评估提供了可靠标准。此外,首次引入逆动力学模型(IDM)图灵测试来衡量模型在真实世界任务中的执行成功率。
- 其它亮点基于609段机器人操作视频构建评测集;设计了包含22个指标的综合评估协议,与人类偏好评分高度一致;实验表明现有模型在长时程规划上仅得17.27分,物理一致性最高仅68.02,暴露出时空连贯性和物理推理的严重不足;在IDM图灵测试中,多数模型接近0%成功,而WoW模型达到40.74%,凸显其相对优势;代码与基准有望开源,推动社区对世界模型的可信评估;未来值得深入研究如何提升生成视频的物理合理性与长期动态一致性。
- 1. Video Foundation Models as World Simulators: A Survey 2. Do Large Video Models Understand Physics? 3. Action-Anticipated World Models for Embodied Reasoning 4. SimToReal Transfer via Predictive Learning in Robotics 5. Towards Generalization in Visual Dynamics Modeling
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流