- 简介我们提出了STORM,这是一种时空重建模型,旨在从稀疏观测中重建动态户外场景。现有的动态重建方法通常依赖于每场景优化、时空上的密集观测以及强运动监督,这导致了较长的优化时间、对新视图或场景的泛化能力有限,以及由于动态伪标签噪声引起的质量下降。为了解决这些挑战,STORM采用了一种数据驱动的Transformer架构,可以在单次前向传递中直接推断出由3D高斯分布及其速度参数化的动态3D场景表示。我们的关键设计是通过自监督场景流将所有帧中的3D高斯分布聚合,并将其转换到目标时间点,从而实现从任意视角在任何时刻进行完整的(即“非模态”)重建。作为一种涌现属性,STORM能够自动捕捉动态实例并仅使用重建损失生成高质量的掩码。在公共数据集上的广泛实验表明,STORM在动态区域的精确动态场景重建方面超越了最先进的每场景优化方法(PSNR提高4.3至6.6)和现有的前馈方法(PSNR提高2.1至4.7)。STORM可以在200毫秒内重建大规模户外场景,支持实时渲染,并在场景流估计方面优于竞争对手,3D EPE提高了0.422米,Acc5提高了28.02%。除了重建之外,我们还展示了模型的四个其他应用,说明了自监督学习在更广泛的动态场景理解方面的潜力。
- 图表
- 解决问题该论文试图解决动态户外场景从稀疏观测中进行重建的问题。现有方法通常依赖于每场景优化、时空上的密集观测和强运动监督,导致优化时间长、对新视图或场景的泛化能力有限以及因动态伪标签噪声而质量下降等问题。这是一个需要改进的关键问题,但并非全新问题。
- 关键思路STORM引入了一种基于数据驱动的Transformer架构,通过单次前向传播直接推断由3D高斯及其速度参数化的动态3D场景表示。它使用自监督场景流聚合所有帧中的3D高斯,并将它们转换到目标时间点,以实现从任意视角在任何时刻的完整(即“非模态”)重建。这种方法避免了传统方法中的长时间优化和对密集观测的需求,提供了一种更高效且泛化能力更强的解决方案。
- 其它亮点1. STORM能够自动捕捉动态实例并生成高质量掩码,仅使用重建损失。 2. 在公共数据集上的广泛实验表明,STORM在动态区域的PSNR比最先进的每场景优化方法高出4.3到6.6分,比现有的前馈方法高出2.1到4.7分。 3. STORM可以在200毫秒内重建大规模户外场景,支持实时渲染。 4. 在场景流估计方面表现优异,3D EPE提高了0.422米,Acc5提高了28.02%。 5. 开源代码和模型权重可供研究社区使用,进一步促进了相关领域的研究进展。
- 最近在这个领域中,相关的研究包括: - "Neural Scene Flow Fields for Space-Time Prediction of Dynamic 3D Structure" - "Learning to Predict 3D Object Trajectories with Dense Correspondences" - "4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks" - "Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations" 这些研究都在探索如何更好地理解和重建动态场景,但STORM通过其独特的Transformer架构和自监督学习机制,在效率和效果上取得了显著进步。
沙发等你来抢
去评论
评论
沙发等你来抢