- 简介深度传感器已广泛部署于各类机器人平台;而快速、高保真深度图像仿真技术的进步,使得仅基于深度观测数据训练的机器人策略,得以在大量任务中实现稳健的“仿真到真实”(sim-to-real)迁移。尽管如此,相较于RGB模态——其大规模基础模型目前已代表该领域的最先进水平——针对深度模态的表征学习仍鲜有探索。为填补这一空白,我们提出了DeFM:一种专为机器人应用设计、完全基于深度图像进行自监督训练的基础模型。DeFM在精心筛选的6000万张深度图像数据集上,采用类似DINO的自蒸馏目标函数进行训练,从而习得兼具几何结构理解能力与语义感知能力的通用表征,可泛化至多样化的环境、任务及传感器类型。为确保模型在多尺度下始终具备对度量空间(metric space)的准确感知能力,我们提出了一种新颖的输入归一化策略。此外,我们还进一步将DeFM知识蒸馏为轻量化模型,以适配资源受限的机器人系统。在涵盖深度图像分类、分割、导航、运动控制与灵巧操作等多类基准任务的评测中,DeFM均达到当前最优性能,并展现出从仿真环境到真实世界场景的卓越泛化能力。我们已开源全部预训练模型,用户可直接将其用于基于深度图像的机器人学习任务,无需任何面向特定任务的微调。项目主页:https://de-fm.github.io/
-
- 图表
- 解决问题深度传感器在机器人领域广泛应用,但与RGB模态相比,深度图像缺乏大规模、高质量的自监督基础模型,导致深度表征学习滞后,限制了跨任务、跨环境、跨传感器的泛化能力与sim-to-real迁移效果。这是一个尚未被系统解决的新问题。
- 关键思路提出DeFM——首个完全基于深度图像(非RGB或RGB-D)训练的自监督基础模型;采用DINO风格的自蒸馏框架,在6000万张深度图上学习几何-语义联合表征;创新性引入尺度不变的输入归一化策略以保持度量一致性,并通过知识蒸馏生成轻量级变体适配边缘机器人平台。
- 其它亮点在分类、分割、导航、足式/轮式运动、灵巧操作等5类深度原生任务上全面超越现有方法;验证了强sim-to-real泛化能力(如从仿真深度图直接部署至RealSense/D435、Azure Kinect等真实传感器);发布全系列预训练模型(含ViT-S/B/L及蒸馏版),支持开箱即用、零样本或线性探测评估;数据集经多源清洗(仿真+真实)、去畸变、对齐与深度有效性过滤;代码与模型已开源(https://de-fm.github.io/);未来可探索多模态对齐(如DeFM+CLIP)、动态深度建模与闭环控制集成。
- DINO (2021), MAE (2022), DepthAnything (2023), OmniDepth (2022), RoboCLIP (2023), Open-VLA (2024), VLN-BERT for depth navigation (2021), DenseDepth (2018)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流