Depth Anything 3: Recovering the Visual Space from Any Views

向作者提问

NEW

简介

我们提出Depth Anything 3（DA3），这是一种能够从任意数量的视觉输入中预测空间一致几何结构的模型，无论是否已知相机位姿。在追求极简建模的过程中，DA3得出了两个关键洞见：其一，一个简单的纯Transformer结构（例如标准DINO编码器）即可作为骨干网络，无需专门设计架构；其二，采用单一的深度射线预测目标，避免了复杂的多任务学习需求。通过我们的师生训练范式，该模型在细节还原和泛化能力方面达到了与Depth Anything 2（DA2）相当的水平。我们建立了一个新的视觉几何基准，涵盖相机位姿估计、任意视角几何重建以及视觉渲染任务。在该基准上，DA3在所有任务中均取得了新的最先进性能，相机位姿精度平均超越此前最先进的VGGT模型44.3%，几何精度提升25.1%。此外，在单目深度估计任务上，DA3也优于DA2。所有模型均仅在公开的学术数据集上进行训练。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决从任意数量的视觉输入中预测空间一致的几何结构的问题，无论是否已知相机姿态。该问题涉及多视图几何、相机位姿估计和单目深度估计等多个任务，传统方法通常依赖复杂的多任务学习框架或专用架构。DA3探索了在最小化建模假设下实现通用视觉几何理解的可能性，验证了简单模型是否能在不依赖专门设计的情况下达到先进性能。
关键思路

DA3的核心思想是极简主义建模：使用一个普通的Transformer（如 vanilla DINO 编码器）作为唯一骨干网络，无需针对几何任务进行架构定制；同时引入单一的深度射线（depth-ray）预测目标，避免复杂的多任务训练。通过教师-学生蒸馏范式训练，模型在无监督或弱监督条件下实现了高质量的几何预测。这种‘一骨干+一目标’的设计显著简化了系统复杂性，却仍能达到甚至超越现有最先进模型的表现。
其它亮点

DA3在新构建的统一视觉几何基准上全面超越先前SOTA方法VGGT（平均提升44.3%相机位姿精度和25.1%几何精度），并在单目深度估计上优于其前代Depth Anything 2。所有实验仅使用公开学术数据集训练，未使用任何专有数据。模型未提及开源代码，但强调可复现性和对社区友好的训练设置。值得注意的是，该工作展示了通用视觉表示模型（如DINO）经适当监督后可直接胜任高精度几何推理任务，为未来研究提供了新的方向：即脱离专用架构，转向更通用、更简洁的视觉基础模型设计。
相关研究

1. 'Vision Transformers for Dense Prediction' (ICCV 2021) 2. 'DINO: DETR with Improved DeNoising Anchor Boxes' (ICLR 2022) 3. 'Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data' (CVPR 2024) 4. 'PatchNeRF: Arbitrary-View Reconstruction with Patch-Based Neural Rendering' (CVPR 2023) 5. 'GLoRIA: Global-Local Registration for 3D Scene Understanding' (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问