INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

向作者提问

NEW

简介

构建兼具空间一致性与实时交互能力的世界模型，仍是计算机视觉领域的一项根本性挑战。当前的视频生成范式往往难以维持空间上的持久性，且视觉真实感不足，因而难以支撑在复杂环境中的无缝导航。为应对这些挑战，我们提出了INSPATIO-WORLD——一种全新的实时框架，能够仅凭一段参考视频，即可恢复并生成高保真、动态可交互的场景。该方法的核心是一种时空自回归（STAR）架构，通过两个紧密耦合的模块，实现对场景演化的连贯性建模与可控生成：隐式时空缓存（Implicit Spatiotemporal Cache）将参考视频与历史观测信息聚合为一个潜空间世界表征，从而保障长时程导航过程中的全局一致性；显式空间约束模块（Explicit Spatial Constraint Module）则负责保持几何结构的合理性，并将用户交互指令精准转化为物理上可信的相机运动轨迹。此外，我们还提出了联合分布匹配蒸馏（Joint Distribution Matching Distillation, JDMD）技术：以真实世界数据的分布作为正则化引导，有效缓解了因过度依赖合成数据而导致的生成质量退化问题。大量实验表明，INSPATIO-WORLD在空间一致性与交互精度方面显著超越现有最先进（SOTA）方法，在WorldScore-Dynamic基准测试中，于所有实时交互式方法中排名第一，同时构建了一条切实可行的技术路径，支持从单目视频中重建出可导航的四维（4D）环境。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

构建具有空间一致性和实时交互能力的世界模型是计算机视觉中的根本挑战；现有视频生成方法在空间持久性（如物体位置随视角变化保持稳定）和视觉真实性上表现不足，难以支持复杂环境下的无缝导航。该问题在单参考视频驱动的4D（3D空间+时间）动态场景重建与交互中尤为突出，属于新兴且亟待突破的方向。
关键思路

提出INSPATIO-WORLD框架，核心是Spatiotemporal Autoregressive（STAR）架构：1）隐式时空缓存（Implicit Spatiotemporal Cache）将单视频帧与历史观测编码为全局一致的隐式世界表征，保障长程导航的空间连贯性；2）显式空间约束模块（Explicit Spatial Constraint Module）引入几何先验与物理可导的相机运动建模，实现用户指令到精确、合理轨迹的端到端映射；3）首创Joint Distribution Matching Distillation（JDMD），以真实世界数据分布为教师信号蒸馏模型，缓解合成数据过拟合导致的保真度下降——这是首次将分布对齐蒸馏机制系统引入单视频驱动的动态世界建模。
其它亮点

在WorldScore-Dynamic基准上实时交互性能排名第一（SOTA）；实验涵盖多类动态室内/城市场景，使用真实单目视频（含EPIC-KITCHENS、Waymo Open Dataset子集）及自建INSPATIO-NAV验证集；未提及其开源代码，但方法设计强调工程友好性（轻量缓存更新、GPU友好推理）；JDMD策略具普适性，可迁移至NeRF-based SLAM或具身AI世界模型训练；未来值得探索方向包括：在线增量学习、跨视频泛化、与LLM结合的语义级交互接口。
相关研究

NeRF in the Wild (CVPR 2023)；DynamicNeRF (ECCV 2022)；Gaussian Splatting for Real-Time Rendering (SIGGRAPH 2023)；Vid2World: Learning 3D Dynamic Scene Representations from Videos (ICCV 2023)；DreamFusion: Text-to-3D using 2D Diffusion (ICLR 2023)；SceneLLM: Large Language Models for 3D Scene Understanding (arXiv 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问