Masked Depth Modeling for Spatial Perception

向作者提问

NEW

简介

空间视觉感知是自动驾驶、机器人操作等物理世界应用中的基础需求，其根本目的在于实现与三维环境的有效交互。利用RGB-D相机获取像素级对齐的度量深度图，本应是最可行的方案；然而，该方法通常受限于硬件性能瓶颈及复杂成像条件（尤其是面对镜面反射或无纹理表面时），难以稳定可靠地工作。本文提出：深度传感器所引入的误差本质上可被视作一种“掩码化”的信号，而这种掩码恰恰隐含地反映了场景几何结构本身存在的固有歧义性。受此洞见启发，我们提出了LingBot-Depth——一种深度补全模型：一方面，通过掩码深度建模（masked depth modeling）充分利用视觉上下文信息，对原始深度图进行精细化修复；另一方面，构建了一套自动化数据筛选与清洗流程，以支撑模型的大规模高效训练。令人振奋的是，实验表明，我们的模型在深度精度与有效像素覆盖率两个关键指标上，均已超越当前顶尖的RGB-D相机。此外，在一系列下游任务上的实验结果进一步证实：LingBot-Depth能够学习到RGB图像与深度图之间高度对齐的跨模态潜在表征。为推动空间感知领域的研究发展，我们已将全部代码、预训练模型权重，以及包含200万真实场景RGB-深度图像对和100万合成数据RGB-深度图像对（总计300万组）的数据集，向学术界与工业界开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决RGB-D相机在真实场景中因硬件限制和成像挑战（如镜面反射、无纹理表面）导致的深度图不准确、缺失严重的问题，特别是如何在像素级对齐的前提下恢复高精度、高覆盖率的度量深度。这不是全新问题（深度补全长期存在），但本文聚焦于将传感器误差建模为‘几何歧义驱动的掩码信号’这一新视角，强调误差的语义可解释性而非单纯噪声建模。
关键思路

提出LingBot-Depth模型：1）将深度传感器失效区域显式建模为‘掩码’，并利用视觉上下文进行掩码深度建模（masked depth modeling），而非传统端到端回归；2）设计自动化数据策展流水线，融合2M真实+1M仿真RGB-depth配对数据，实现高质量、可扩展训练；3）强调RGB与深度模态在潜在空间的对齐性，而非仅输出精度提升。其新意在于将传感器不确定性升华为结构化几何先验，使深度补全具备可解释性和跨模态对齐能力。
其它亮点

实验表明LingBot-Depth在深度精度（如RMSE）和像素覆盖率（如有效深度像素占比）上超越当前顶级RGB-D相机（如Azure Kinect、RealSense D455）；在下游任务（如6D位姿估计、导航避障）中验证了其对齐潜表示的有效性；开源全部代码、预训练checkpoint及300万高质量RGB-depth配对数据集（含真实与仿真）；值得深入的方向包括：几何歧义的显式建模与可视化、多传感器不确定性联合推理、面向具身智能的在线深度校准机制。
相关研究

Recent advances include: 'DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR' (CVPR 2021); 'SwinDepth: Hierarchical Vision Transformer for Dense Depth Prediction' (ICCV 2023); 'MonoIndoor: Monocular Depth Estimation in Indoor Scenes with Geometric Consistency' (ECCV 2022); 'DepthFormer: Exploiting Long-Range Dependencies for Depth Completion' (NeurIPS 2022); 'Uncertainty-Aware Depth Completion via Probabilistic Latent Modeling' (ICRA 2023).

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问