- 简介单目深度估计旨在从二维图像中恢复三维场景的深度信息。尽管近期研究已取得显著进展,但其对大规模数据集和复杂解码器的依赖限制了模型的效率与泛化能力。本文提出了一种轻量级且以数据为中心的零样本单目深度估计框架。首先,我们采用DINOv3作为视觉编码器,以获取高质量的密集特征;其次,为解决DPT(Dense Prediction Transformer)结构复杂所固有的缺陷,我们设计了简洁的深度Transformer(SDT),这是一种紧凑型基于Transformer的解码器。相较于DPT,SDT采用单路径特征融合与上采样过程,降低了跨尺度特征融合带来的计算开销,在将参数数量减少约85%–89%的同时实现了更高的精度。此外,我们提出一种基于质量的过滤策略,用以剔除有害样本,从而在减小数据集规模的同时提升整体训练质量。在五个基准数据集上的大量实验表明,我们的框架在精度上优于DPT。本研究强调了在实现高效且具有良好泛化能力的零样本深度估计中,平衡模型设计与数据质量的重要性。代码地址:https://github.com/AIGeeksGroup/AnyDepth。项目网站:https://aigeeksgroup.github.io/AnyDepth。
-
- 图表
- 解决问题论文试图解决单目深度估计中模型依赖大规模数据集和复杂解码器导致效率低、泛化能力差的问题。尤其是在零样本(zero-shot)设置下,现有方法难以在保持高精度的同时实现轻量化和高效训练。这个问题在当前研究中较为重要,但尚未被充分优化——如何在减少数据和简化模型的前提下仍能保证良好的深度估计性能,是一个亟待平衡的挑战。
- 关键思路提出一种轻量级、以数据为中心的零样本单目深度估计框架:采用DINOv3作为视觉编码器获取高质量密集特征,并设计了一个名为Simple Depth Transformer(SDT)的简洁Transformer解码器,通过单路径特征融合与上采样显著降低计算开销;同时引入基于质量的过滤策略,筛选出有害样本,在减小数据集规模的同时提升训练质量。相比DPT等复杂结构,该方法在参数量减少85%-89%的情况下实现了更高精度,强调了模型设计与数据质量之间的协同优化。
- 其它亮点在五个主流基准(如NYU Depth V2、KITTI等)上进行了广泛实验,结果表明该框架在零样本设置下优于DPT等先前方法;提出的SDT解码器结构简洁高效,适合部署;质量过滤策略有效提升了数据利用率;代码已开源(https://github.com/AIGeeksGroup/AnyDepth),并提供了项目网站(https://aigeeksgroup.github.io/AnyDepth),增强了可复现性与社区影响力;未来可进一步探索更细粒度的数据质量评估机制及在动态场景中的应用。
- 1. Vision Transformers for Image Recognition at Scale 2. Segment Anything Model (SAM) 3. DPT: Vision Transformer for Dense Prediction 4. BEiT: Bert Pre-Training of Image Transformers 5. Masked Autoencoders Are Scalable Vision Learners 6. DINOv2: Learning Robust Visual Features without Supervision
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流