M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation

简介

本文提出了一种新颖的自监督双帧多摄像头度量深度估计网络——M${^2}$Depth，旨在预测自动驾驶中可靠的、具有尺度感知的周围深度。与以往使用单个时间步的多视图图像或单个摄像头的多个时间步图像不同，M${^2}$Depth将来自多个摄像头的时间上相邻的两帧图像作为输入，并产生高质量的周围深度。我们首先分别在空间和时间域中构建代价体，并提出了一个空间-时间融合模块，将空间-时间信息整合起来，产生强大的体表示。我们还将SAM特征的神经先验与内部特征相结合，以减少前景和背景之间的歧义并加强深度边缘。在nuScenes和DDAD基准测试中的广泛实验结果表明，M${^2}$Depth实现了最先进的性能。更多结果可以在https://heiheishuang.xyz/M2Depth中找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的目标是解决自动驾驶中可靠的、具有尺度感知的环境深度估计问题，通过使用多个摄像头的相邻两帧图像来进行深度估计。
关键思路

本论文的关键思路是使用空间和时间维度上的代价体积来构建深度估计模型，并提出了一种空间-时间融合模块来整合空间和时间信息，同时通过将SAM特征的神经先验与内部特征相结合来减少前景和背景之间的歧义，并增强深度边缘。
其它亮点

本论文的实验结果表明，提出的M${^2}$Depth模型在nuScenes和DDAD基准测试中均取得了最先进的性能。此外，论文还开源了代码，并提供了详细的实验结果和分析。这项工作为后续的深度学习模型提供了新思路和新方法。
相关研究

在近期的相关研究中，还有一些基于深度学习的多摄像头深度估计模型，如MultiCamDepth、MVSNet等。

M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation

提问交流

提问交流