MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

2024年05月27日
  • 简介
    我们介绍了一种名为4D Motion Scaffolds (MoSca)的神经信息处理系统,旨在从随意拍摄的单目视频中重建和合成动态场景的新视角。为了解决这样一个具有挑战性和不适定的反问题,我们利用来自基础视觉模型的先验知识,将视频数据提升到一种新的运动脚手架(MoSca)表示形式,该表示形式紧凑而平滑地编码了底层的运动/变形。然后,场景几何和外观从变形场中解开,通过在MoSca上锚定高斯并通过高斯喷洒优化全局融合来编码。此外,在动态渲染过程中,摄像机姿态可以无缝地初始化和优化,无需其他姿态估计工具。实验表明,在动态渲染基准测试中具有最先进的性能。
  • 图表
  • 解决问题
    本篇论文的问题是如何从单目视频中重构和合成动态场景的新视角,以及如何优化相机姿态,同时不需要其他姿态估计工具。
  • 关键思路
    本篇论文的关键思路是使用先前的视觉模型,将视频数据提升到一种新的运动脚手架(MoSca)表示形式,从而紧凑而平滑地编码底层的运动/变形。然后通过将锚定在MoSca上的高斯函数全局融合并通过高斯飞溅进行优化,将场景几何和外观与变形场分离开来。
  • 其它亮点
    本篇论文的亮点在于提出了一种新的运动脚手架(MoSca)表示形式,可以从单目视频中重构和合成动态场景的新视角。实验结果表明,该方法在动态渲染基准测试中具有最先进的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括:DeepVCP、Neural Volumes、Neural Scene Flow Fields等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论