DepthFM: Fast Monocular Depth Estimation with Flow Matching

向作者提问

NEW

简介

单目深度估计对于许多下游视觉任务和应用非常关键。目前针对这个问题的判别式方法受到模糊伪影的限制，而最先进的生成式方法由于其SDE性质而导致采样速度缓慢。我们不是从噪声开始，而是寻求从输入图像到深度图的直接映射。我们发现这可以通过流匹配有效地构建，因为它在解决空间中的直线轨迹具有高效性和高质量。我们的研究表明，预训练的图像扩散模型可以作为流匹配深度模型的充分先验，从而使其仅在合成数据上进行有效训练以推广到真实图像。我们发现，辅助表面法线损失进一步改善了深度估计。由于我们方法的生成性质，我们的模型可靠地预测其深度估计的置信度。在复杂自然场景的标准基准测试中，我们的轻量级方法表现出最先进的性能，而计算成本较低，尽管只是在少量的合成数据上进行训练。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决单目深度估计的问题，当前的判别式方法存在模糊伪影，而生成式方法由于SDE性质导致采样速度慢。因此，该论文提出了一种直接从输入图像到深度图的映射方法，利用流匹配来实现高效和高质量的结果。
关键思路

该论文的关键思路是使用预训练的图像扩散模型作为流匹配深度模型的先验，仅使用合成数据进行训练，从而实现对真实图像的泛化。此外，辅助表面法线损失进一步提高了深度估计的准确性。
其它亮点

该论文的模型可靠地预测深度估计的置信度，并且在标准的自然场景基准测试中表现出了最先进的性能，尽管仅在少量的合成数据上进行了训练。该论文还开源了代码，并使用了多个数据集进行实验。值得进一步研究的是如何将该方法应用于其他视觉任务。
相关研究

在这个领域中，最近的相关研究包括：《Depth from a Single Image by Harmonizing Overcomplete Local Network Predictions》、《Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network》、《Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问