GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

2025年08月25日
  • 简介
    在机器人操作任务中,由于真实世界交互效率低下,基于学习得到的世界模型来训练机器人策略正成为一种趋势。现有的基于图像的世界模型与策略虽已取得一定成果,但缺乏对三维世界的稳定空间结构和物理规律的理解能力,即便使用互联网规模的视频数据进行预训练,这类模型仍难以提供可靠的几何信息。针对这一问题,我们提出了一种新型的世界模型分支——高斯世界模型(Gaussian World Model, GWM),该模型通过推断机器人动作影响下高斯基元的传播来重建未来状态。其核心是一个结合了三维变分自编码器的隐式扩散变换器(Diffusion Transformer, DiT),借助高斯点阵化(Gaussian Splatting)实现细粒度的场景级未来状态重建。GWM不仅能通过自监督的未来预测训练增强模仿学习智能体的视觉表征能力,还可作为支持基于模型的强化学习的神经仿真器。仿真实验与真实世界实验均表明,GWM能够精确地根据不同的机器人动作预测未来的场景,并可用于训练出显著优于当前最先进方法的策略,展现出三维世界模型在数据规模扩展方面的初步潜力。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决机器人策略训练中真实世界交互效率低的问题,同时现有基于图像的世界模型缺乏对三维空间几何和物理规律的稳定建模能力,难以支持需要精确空间理解的操纵任务。这个问题在当前研究中尚未被充分解决,尤其是在结合三维几何与动作条件未来预测方面具有新颖性。
  • 关键思路
    提出高斯世界模型(Gaussian World Model, GWM),通过推断高斯图元在机器人动作影响下的传播来重建未来状态。核心是结合潜空间扩散Transformer(DiT)与3D变分自编码器,并利用高斯点阵化(Gaussian Splatting)实现细粒度的场景级未来重建。该方法将3D结构先验引入世界模型,既可用于模仿学习中的表征增强,也可作为神经仿真器支持基于模型的强化学习。
  • 其它亮点
    GWM在模拟和真实世界实验中均能准确预测多种机器人动作下的未来场景,并用于训练超越当前最先进水平的策略。实验设计涵盖动作条件未来预测与下游策略学习,展示了3D世界模型的数据扩展潜力。尽管摘要未明确提及开源代码,但其融合3D生成建模与机器人决策的范式为未来工作提供了新方向,值得深入探索在复杂交互、动态物体建模及跨任务泛化中的应用。
  • 相关研究
    1. Video Prediction with Latent Diffusion Models 2. Gaussian Splatting for Real-Time Radiance Field Rendering 3. Action-Conditioned 3D Human Motion Prediction with Transformer Models 4. World Models for Robotics: From Pixels to Physical Understanding 5. 3D Scene Representation for Robot Manipulation via Neural Fields
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问