Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

2024年01月19日
  • 简介
    这项工作提出了Depth Anything,一种高度实用的单目深度估计解决方案。我们旨在构建一个简单而强大的基础模型,能够处理任何情况下的图像,而不追求新颖的技术模块。为此,我们通过设计数据引擎来收集和自动注释大规模未标记数据(约6200万),从而扩大了数据覆盖范围,因此能够减少泛化误差。我们研究了两种简单而有效的策略,使数据扩展变得有希望。首先,通过利用数据增强工具创建一个更具挑战性的优化目标,迫使模型积极寻求额外的视觉知识并获取强大的表示。其次,开发了一个辅助监督来强制模型从预训练的编码器中继承丰富的语义先验知识。我们广泛评估了它的零样本能力,包括六个公共数据集和随机捕获的照片。它展示了令人印象深刻的泛化能力。此外,通过使用来自NYUv2和KITTI的度量深度信息进行微调,我们设定了新的SOTAs。我们更好的深度模型也导致更好的深度条件控制网络。我们的模型已在https://github.com/LiheYoung/Depth-Anything上发布。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本文试图提出一种简单但强大的模型来解决单目深度估计的问题,并且能够适用于任何图像和任何情况。为此,通过设计数据引擎来收集和自动注释大规模的未标记数据集,从而扩大数据覆盖范围,以减少泛化误差。
  • 关键思路
    关键思路:通过扩大数据集并使用数据增强工具创建更具挑战性的优化目标,以激励模型主动寻求额外的视觉知识和获得稳健的表示。其次,开发辅助监督以强制模型从预训练编码器中继承丰富的语义先验知识。
  • 其它亮点
    其他亮点:本文的数据引擎可以自动注释大规模未标记数据集,从而扩大数据覆盖范围,以减少泛化误差。使用了六个公共数据集和随机捕获的照片对其进行了广泛的零样本评估,并展示了令人印象深刻的泛化能力。此外,通过使用NYUv2和KITTI的度量深度信息进行微调,设置了新的SOTAs。模型已在https://github.com/LiheYoung/Depth-Anything上发布。
  • 相关研究
    相关研究:最近在这个领域中,还有一些相关的研究,例如《Unsupervised Monocular Depth Estimation with Left-Right Consistency》和《Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问