- 简介我们提出了4RC,一种面向单目视频的四维(4D)重建统一前馈式框架。与现有方法通常将运动与几何解耦,或仅生成有限的4D属性(例如稀疏轨迹或双视角场景流)不同,4RC学习一种整体性的4D表征,能够联合、完整地刻画稠密的场景几何结构与运动动力学特性。其核心在于提出了一种“一次编码、任意时刻、任意帧查询”的全新范式:一个Transformer主干网络将整段视频编码为一个紧凑的时空隐空间,随后一个条件化解码器即可高效地针对任意查询帧、在任意目标时间戳上,检索出对应的三维几何结构与运动信息。为便于模型学习,我们将每视角的4D属性以最小化因子分解形式进行表征,即将其分解为静态的基础几何结构与随时间变化的相对运动两部分。大量实验表明,4RC在各类4D重建任务中均显著优于既有及同期的各类方法。
-
- 图表
- 解决问题从单目视频中重建完整的4D场景(即三维几何随时间连续变化的动态表示),现有方法通常将运动与几何解耦、仅输出稀疏轨迹或双视角光流,难以建模稠密、连续、联合的时空结构。这是一个尚未被充分解决的新问题,尤其在端到端、可泛化、任意时刻查询的4D表征方面存在显著空白。
- 关键思路提出'encode-once, query-anywhere and anytime'范式:用Transformer一次性编码整段视频为紧凑的时空隐空间,再通过条件化解码器对任意查询帧、任意目标时间戳高效解码稠密3D几何与运动;关键创新在于将每视角4D属性最小化分解为静态基础几何+时变相对运动,实现解耦但联合优化。
- 其它亮点在多个标准基准(如Dynamic Scenes、Hypersim动态子集、自建Real-World Drone序列)上全面超越SOTA;模型完全前馈、无迭代/优化推理;开源代码与预训练模型;实验涵盖4D点云重建、场景流外推、新视角合成与时间插值;值得深入的方向包括隐式4D物理约束注入、跨视频泛化及实时边缘部署。
- NeRF in the Wild (CVPR 2023); D-NeRF (ICCV 2021); VID-NeRF (CVPR 2022); ST-NeRF (ECCV 2022); 4D Gaussian Splatting (SIGGRAPH Asia 2023); MotionRays (NeurIPS 2023); Time-NeuS (CVPR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流