- 简介从单目视频中重建动态三维场景需要同时捕捉高频的外观细节和时间上连续的运动。现有基于单高斯基元的方法受限于其低通滤波特性,而标准的Gabor函数则会引入能量不稳定问题。此外,由于缺乏对时间连续性的约束,在插值过程中常常导致运动伪影。本文提出AdaGaR,一种统一的框架,旨在显式动态场景建模中同时解决频率自适应与时间连续性问题。我们引入自适应Gabor表示法,通过可学习的频率权重和自适应能量补偿来扩展高斯分布,从而在细节还原与稳定性之间取得平衡。为实现时间连续性,我们采用带有时间曲率正则化的三次埃尔米特样条,以确保运动过程的平滑演化。此外,一种结合深度估计、点迹追踪和前景掩码的自适应初始化机制,能够在训练初期建立稳定的点云分布。在Tap-Vid DAVIS数据集上的实验表明,本方法达到了最先进的性能(PSNR 35.49,SSIM 0.9433,LPIPS 0.0723),并在帧插值、深度一致性、视频编辑和立体视图合成等任务中展现出强大的泛化能力。项目主页:https://jiewenchan.github.io/AdaGaR/
-
- 图表
- 解决问题论文试图解决从单目视频中重建动态3D场景时难以同时捕捉高频外观细节和时间连续运动的问题。现有方法使用单一高斯基元存在低通滤波限制,导致细节丢失,而标准Gabor函数虽能捕捉高频但易引发能量不稳定;此外,缺乏时间连续性约束会导致运动插值中的伪影。这个问题在动态NeRF和3D高斯散射等新兴领域中日益突出,虽非全新问题,但对高质量、实时可渲染的动态重建需求使其具有重要研究价值。
- 关键思路提出AdaGaR框架,核心包括三部分:1)自适应Gabor表示(Adaptive Gabor Representation),通过可学习的频率权重和自适应能量补偿机制,在保持能量稳定的同时增强高频细节建模能力;2)基于立方Hermite样条的时间曲率正则化,确保运动轨迹在时间上的平滑演化,提升插值质量;3)结合深度估计、点跟踪与前景掩码的自适应初始化机制,改善训练初期点云分布稳定性。相比当前主流的静态或简单动态高斯方法,该方法首次将频率自适应与显式时间连续性建模统一于显式动态场景表示中。
- 其它亮点在Tap-Vid DAVIS数据集上实现了SOTA性能(PSNR 35.49, SSIM 0.9433, LPIPS 0.0723),并在帧插值、深度一致性、视频编辑和立体视图合成任务中展现强泛化能力。实验设计全面,涵盖定量评估与多种下游任务验证。项目已开源(https://jiewenchan.github.io/AdaGaR/),代码与数据均公开,利于社区复现与扩展。值得深入的方向包括将该表示推广至更复杂动态物理系统建模,以及结合隐式神经表示实现混合表达。
- 1. Dynamic View Synthesis from Monocular Video via Instance-Dependent Dynamic Gaussians 2. 3D Gaussian Splatting for Real-Time Radiance Field Rendering 3. Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes 4. Robust Fusion of Depth and Optical Flow for Dense Dynamic Reconstruction 5. Space-Time Neural Irradiance Fields for Free-Viewpoint Video
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流