Dexterous World Models

2025年12月19日
  • 简介
    最近的3D重建技术进展使得从日常环境中轻松创建逼真的数字孪生成为可能。然而,当前的数字孪生大多仍处于静态状态,仅限于导航和视角合成,缺乏具身交互能力。为弥合这一差距,我们提出了灵巧世界模型(Dexterous World Model, DWM),这是一种场景-动作条件化的视频扩散框架,能够建模灵巧的人类动作如何在静态3D场景中引发动态变化。 给定一个静态3D场景的渲染结果和一段以自我为中心的手部运动序列,DWM能够生成时间上连贯、呈现合理人-场景交互的视频。我们的方法将视频生成过程建立在两个条件基础上:(1)按照指定相机轨迹进行的静态场景渲染,以确保空间一致性;(2)以自我为中心的手部网格渲染,用以编码几何形状和运动线索,从而直接建模依赖于动作的动态变化。为了训练DWM,我们构建了一个混合交互视频数据集:合成的以自我为中心的交互数据为联合移动与操作学习提供了完全对齐的监督信号,而固定相机拍摄的真实世界视频则贡献了丰富且真实的物体动态。 实验表明,DWM能够实现诸如抓取、开启和移动物体等真实且符合物理规律的交互行为,同时保持相机视角与场景的一致性。该框架是迈向基于视频扩散的交互式数字孪生的重要第一步,实现了从第一人称动作出发的具身化仿真。
  • 作者讲解
  • 图表
  • 解决问题
    当前的数字孪生技术大多停留在静态场景重建,缺乏基于人类灵巧动作的动态交互能力,难以支持具身化的场景互动。论文试图解决如何在静态3D场景中引入由人类手部动作驱动的、时空一致的动态变化这一问题。虽然3D重建和视频生成已有进展,但实现动作条件下的场景动态响应仍是一个较新的挑战。
  • 关键思路
    提出Dexterous World Model (DWM),一种基于场景-动作条件的视频扩散框架,通过将静态3D场景渲染与自我中心视角的手部运动序列联合建模,生成符合物理直觉的人-物交互视频。其核心创新在于同时以场景相机轨迹和手部网格渲染为条件,实现空间一致性和动作驱动动态性的联合建模,是首次将扩散模型用于动作引导的交互式数字孪生模拟。
  • 其它亮点
    构建了一个混合交互视频数据集,结合合成的自我中心交互(提供精确对齐的动作与场景监督)和真实世界固定视角视频(增强现实多样性);实验验证了DWM在抓取、开启、移动物体等交互任务中的逼真性和物理合理性,并保持摄像机与场景一致性;未来可拓展至多智能体交互、闭环策略学习及真实机器人仿真。目前尚未提及代码是否开源。
  • 相关研究
    1. NeRF in the Wild: Neural Radiance Fields for Natural Scene Rendering 2. Interactive Dynamic Video: Animating Objects from Single Images and Videos 3. ContactFormer: Contact-Aware Human Motion Prediction with Transformer 4. Diffusion Policy: Visuomotor Policy Learning via Action Chunking with Diffusion Models 5. EGO-POSE: Egocentric 3D Human Pose and Shape Estimation from a Single Frontal Image
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问