4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

向作者提问

NEW

简介

我们提出了4RC，一种面向单目视频的四维（4D）重建统一前馈式框架。与现有方法通常将运动与几何解耦，或仅生成有限的4D属性（例如稀疏轨迹或双视角场景流）不同，4RC学习一种整体性的4D表征，能够联合、完整地刻画稠密的场景几何结构与运动动力学特性。其核心在于提出了一种“一次编码、任意时刻、任意帧查询”的全新范式：一个Transformer主干网络将整段视频编码为一个紧凑的时空隐空间，随后一个条件化解码器即可高效地针对任意查询帧、在任意目标时间戳上，检索出对应的三维几何结构与运动信息。为便于模型学习，我们将每视角的4D属性以最小化因子分解形式进行表征，即将其分解为静态的基础几何结构与随时间变化的相对运动两部分。大量实验表明，4RC在各类4D重建任务中均显著优于既有及同期的各类方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

从单目视频中重建完整的4D场景（即三维几何随时间连续变化的动态表示），现有方法通常将运动与几何解耦、仅输出稀疏轨迹或双视角光流，难以建模稠密、连续、联合的时空结构。这是一个尚未被充分解决的新问题，尤其在端到端、可泛化、任意时刻查询的4D表征方面存在显著空白。
关键思路

提出'encode-once, query-anywhere and anytime'范式：用Transformer一次性编码整段视频为紧凑的时空隐空间，再通过条件化解码器对任意查询帧、任意目标时间戳高效解码稠密3D几何与运动；关键创新在于将每视角4D属性最小化分解为静态基础几何+时变相对运动，实现解耦但联合优化。
其它亮点

在多个标准基准（如Dynamic Scenes、Hypersim动态子集、自建Real-World Drone序列）上全面超越SOTA；模型完全前馈、无迭代/优化推理；开源代码与预训练模型；实验涵盖4D点云重建、场景流外推、新视角合成与时间插值；值得深入的方向包括隐式4D物理约束注入、跨视频泛化及实时边缘部署。
相关研究

NeRF in the Wild (CVPR 2023); D-NeRF (ICCV 2021); VID-NeRF (CVPR 2022); ST-NeRF (ECCV 2022); 4D Gaussian Splatting (SIGGRAPH Asia 2023); MotionRays (NeurIPS 2023); Time-NeuS (CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问