A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion

简介

深度图像有广泛的应用，例如3D重建、自动驾驶、增强现实、机器人导航和场景理解等。普通的深度相机很难感知到明亮、光滑、透明和远距离表面的深度。尽管现有的深度完成方法取得了显著的进展，但是在应用于复杂的室内场景时，它们的性能受到限制。为了解决这些问题，我们提出了一个基于Transformer的室内深度完成网络，分为两个步骤。与现有的深度完成方法不同，我们采用基于遮蔽自编码器的自监督预训练编码器来学习缺失深度值的有效潜在表示；然后，我们提出了一个基于令牌融合机制的解码器，从联合RGB和不完整深度图像中完成（即重建）完整深度。与现有方法相比，我们提出的网络在Matterport3D数据集上实现了最先进的性能。此外，为了验证深度完成任务的重要性，我们将我们的方法应用于室内3D重建。代码、数据集和演示可在https://github.com/kailaisun/Indoor-Depth-Completion上获得。
图表
解决问题

本论文旨在解决室内深度完成任务中，对于亮度高、有光泽、透明、远距离等表面的深度感知难度大的问题，并提出一种新的解决方案。
关键思路

该论文提出了一种基于Transformer的两步式网络，通过自监督预训练编码器和基于token融合机制的解码器，实现室内深度图像的完整性恢复。
其它亮点

论文在Matterport3D数据集上取得了最先进的性能，同时还将所提出的方法应用于室内三维重建。论文提供了代码、数据集和演示，并且值得进一步深入研究。
相关研究

在该领域的相关研究中，还有一些值得关注的论文，如：《Depth Completion from Sparse LiDAR Data with Depth-Normal Constraints》、《Deep Depth Completion of a Single RGB-D Image》等。

A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion

评论