SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model

简介

近年来，结合相对深度和绝对深度或对齐输入图像焦距的方法取得了一定进展，但单目度量深度估计（MMDE）的泛化仍然是一个长期存在的挑战。然而，它们仍然面临着相机、场景和数据层面的挑战：（1）对不同相机的敏感性；（2）在不同场景下准确度不一致；（3）依赖于大量的训练数据。本文提出了SM4Depth，一种无缝的MMDE方法，以解决上述所有问题。首先，我们揭示了一个一致的视场（FOV）是解决跨相机“度量歧义”的关键，这指导我们提出了一个更简单的预处理单元。其次，为了在不同场景下实现一致的高精度，我们明确地将度量尺度确定建模为将深度区间离散化为bins，并提出了基于变差的未归一化深度bins。这种方法通过减少传统度量bin的歧义来弥合不同场景之间的深度差距。第三，为了减少对大量训练数据的依赖，我们提出了一个“分而治之”的解决方案。我们不是直接从庞大的解空间中估计，而是从多个解子空间中估计正确的度量bins，以减少复杂度。最后，仅使用150K个RGB-D对和消费级GPU进行训练，SM4Depth在大多数以前未见过的数据集上实现了最先进的性能，特别是在mRI$_\theta$上超越了ZoeDepth和Metric3D。代码可在https://github.com/1hao-Liu/SM4Depth找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决单目度量深度估计（MMDE）中的一系列问题，包括对不同相机的敏感性、在不同场景下精度不一致以及对大量训练数据的依赖性。
关键思路

SM4Depth是一种无缝的MMDE方法，通过单个网络解决了上述所有问题。其关键思路包括采用一致的视场角（FOV）来解决相机间的“度量模糊”，使用基于变化的非归一化深度分段来减少不同场景之间的深度差异，并通过“分而治之”的方法来减少对大量训练数据的依赖。
其它亮点

论文使用150K个RGB-D对和一台消费级GPU进行训练，在大多数以前未见过的数据集上实现了最先进的性能，特别是在mRIθ上超越了ZoeDepth和Metric3D。论文提供了开源代码。
相关研究

与该论文相关的研究包括使用相对深度和度量深度的组合或对齐输入图像焦距等方法来解决单目度量深度估计问题的先前工作。

SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model

提问交流

提问交流