Masked Depth Modeling for Spatial Perception

2026年01月25日
  • 简介
    空间视觉感知是自动驾驶、机器人操作等物理世界应用中的基础需求,其根本目的在于实现与三维环境的有效交互。利用RGB-D相机获取像素级对齐的度量深度图,本应是最可行的方案;然而,该方法通常受限于硬件性能瓶颈及复杂成像条件(尤其是面对镜面反射或无纹理表面时),难以稳定可靠地工作。本文提出:深度传感器所引入的误差本质上可被视作一种“掩码化”的信号,而这种掩码恰恰隐含地反映了场景几何结构本身存在的固有歧义性。受此洞见启发,我们提出了LingBot-Depth——一种深度补全模型:一方面,通过掩码深度建模(masked depth modeling)充分利用视觉上下文信息,对原始深度图进行精细化修复;另一方面,构建了一套自动化数据筛选与清洗流程,以支撑模型的大规模高效训练。令人振奋的是,实验表明,我们的模型在深度精度与有效像素覆盖率两个关键指标上,均已超越当前顶尖的RGB-D相机。此外,在一系列下游任务上的实验结果进一步证实:LingBot-Depth能够学习到RGB图像与深度图之间高度对齐的跨模态潜在表征。为推动空间感知领域的研究发展,我们已将全部代码、预训练模型权重,以及包含200万真实场景RGB-深度图像对和100万合成数据RGB-深度图像对(总计300万组)的数据集,向学术界与工业界开源。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决RGB-D相机在真实场景中因硬件限制和成像挑战(如镜面反射、无纹理表面)导致的深度图不准确、缺失严重的问题,特别是如何在像素级对齐的前提下恢复高精度、高覆盖率的度量深度。这不是全新问题(深度补全长期存在),但本文聚焦于将传感器误差建模为‘几何歧义驱动的掩码信号’这一新视角,强调误差的语义可解释性而非单纯噪声建模。
  • 关键思路
    提出LingBot-Depth模型:1)将深度传感器失效区域显式建模为‘掩码’,并利用视觉上下文进行掩码深度建模(masked depth modeling),而非传统端到端回归;2)设计自动化数据策展流水线,融合2M真实+1M仿真RGB-depth配对数据,实现高质量、可扩展训练;3)强调RGB与深度模态在潜在空间的对齐性,而非仅输出精度提升。其新意在于将传感器不确定性升华为结构化几何先验,使深度补全具备可解释性和跨模态对齐能力。
  • 其它亮点
    实验表明LingBot-Depth在深度精度(如RMSE)和像素覆盖率(如有效深度像素占比)上超越当前顶级RGB-D相机(如Azure Kinect、RealSense D455);在下游任务(如6D位姿估计、导航避障)中验证了其对齐潜表示的有效性;开源全部代码、预训练checkpoint及300万高质量RGB-depth配对数据集(含真实与仿真);值得深入的方向包括:几何歧义的显式建模与可视化、多传感器不确定性联合推理、面向具身智能的在线深度校准机制。
  • 相关研究
    Recent advances include: 'DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR' (CVPR 2021); 'SwinDepth: Hierarchical Vision Transformer for Dense Depth Prediction' (ICCV 2023); 'MonoIndoor: Monocular Depth Estimation in Indoor Scenes with Geometric Consistency' (ECCV 2022); 'DepthFormer: Exploiting Long-Range Dependencies for Depth Completion' (NeurIPS 2022); 'Uncertainty-Aware Depth Completion via Probabilistic Latent Modeling' (ICRA 2023).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问