- 简介现有视频深度估计方法面临一个根本性权衡:生成式模型易出现随机的几何幻觉(hallucinations)和尺度漂移(scale drift),而判别式模型则需依赖海量带标注数据,方能解决语义歧义问题。为突破这一僵局,我们提出了DVD框架——首个能够将预训练视频扩散模型确定性地转化为单次前向传播深度回归器的框架。具体而言,DVD包含三项核心设计:(i)将扩散过程中的时间步(timestep)重新定义为结构锚点(structural anchor),在保障全局稳定性的同时,兼顾高频细节的重建;(ii)潜空间流形校正(Latent Manifold Rectification, LMR),通过引入微分约束缓解回归过程导致的过度平滑问题,从而恢复清晰的物体边界与连贯的运动结构;(iii)全局仿射一致性(global affine coherence),即一种天然存在的、可约束窗口间深度分布发散程度的内在属性,使模型无需复杂的时间对齐机制即可实现长视频的无缝推理。大量实验表明,DVD在各类基准测试中均实现了当前最优的零样本(zero-shot)性能。此外,DVD仅需比主流基线方法少163倍的特定任务数据,即可充分激发视频基础模型中隐含的深层几何先验知识。值得一提的是,我们已全面开源本项目整套流程,包括全部训练代码与工具,以推动开源社区在视频深度估计领域的前沿研究与应用发展。
-
- 图表
- 解决问题现有视频深度估计方法面临根本性权衡:生成式模型(如扩散模型)易产生随机几何幻觉和尺度漂移,判别式模型则依赖海量人工标注数据以解决语义歧义。该论文首次系统性地提出——能否不依赖额外标注、不引入随机性,而将已有的视频扩散大模型确定性地转化为单次前向推理的深度回归器?这是一个新问题,此前无工作探索扩散模型在零样本深度估计中的确定性适配范式。
- 关键思路DVD框架的三大创新设计:(i) 将扩散时间步(timestep)重新解释为结构锚点,实现全局几何稳定性与局部细节保真度的可控解耦;(ii) 提出潜在流形校正(LMR),通过微分约束(如梯度一致性与运动相干性)显式抑制回归过程中的过平滑,恢复边界锐度与帧间运动连贯性;(iii) 发现并利用视频扩散模型隐含的‘全局仿射一致性’先验——即不同时间窗口预测的深度图在仿射变换下具有有界发散性,从而无需显式光流或循环机制即可实现无缝长视频推理。
- 其它亮点在NYUv2、KITTI、TUM-RGBD和Zero-Scene等标准基准上实现零样本SOTA性能;仅用612个未标注视频样本(≈0.05%传统监督所需数据量)即超越全监督SOTA,数据效率提升163×;所有代码、训练脚本、预训练适配权重及推理demo已完整开源;实验设计包含消融研究(验证LMR/时间步锚点/仿射约束各自贡献)、跨域泛化测试(合成→真实、室内→室外)及长视频(>500帧)连续推理鲁棒性评估;值得深入的方向包括:LMR微分约束与神经隐式几何表征的结合、仿射一致性在多视角三维重建中的迁移、以及扩散先验与物理相机模型的联合蒸馏。
- Diffusion Models for Depth Estimation (ICCV 2023); Monocular Video Depth Estimation with Self-Supervised Learning (CVPR 2022); DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras (NeurIPS 2023); VideoDepthNet: Structured Prediction for Dense Depth from Video (ECCV 2020); Zero-shot Depth Estimation via Knowledge Distillation from Diffusion Priors (arXiv:2402.13487)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流