DeFM: Learning Foundation Representations from Depth for Robotics

向作者提问

NEW

简介

深度传感器已广泛部署于各类机器人平台；而快速、高保真深度图像仿真技术的进步，使得仅基于深度观测数据训练的机器人策略，得以在大量任务中实现稳健的“仿真到真实”（sim-to-real）迁移。尽管如此，相较于RGB模态——其大规模基础模型目前已代表该领域的最先进水平——针对深度模态的表征学习仍鲜有探索。为填补这一空白，我们提出了DeFM：一种专为机器人应用设计、完全基于深度图像进行自监督训练的基础模型。DeFM在精心筛选的6000万张深度图像数据集上，采用类似DINO的自蒸馏目标函数进行训练，从而习得兼具几何结构理解能力与语义感知能力的通用表征，可泛化至多样化的环境、任务及传感器类型。为确保模型在多尺度下始终具备对度量空间（metric space）的准确感知能力，我们提出了一种新颖的输入归一化策略。此外，我们还进一步将DeFM知识蒸馏为轻量化模型，以适配资源受限的机器人系统。在涵盖深度图像分类、分割、导航、运动控制与灵巧操作等多类基准任务的评测中，DeFM均达到当前最优性能，并展现出从仿真环境到真实世界场景的卓越泛化能力。我们已开源全部预训练模型，用户可直接将其用于基于深度图像的机器人学习任务，无需任何面向特定任务的微调。项目主页：https://de-fm.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

深度传感器在机器人领域广泛应用，但与RGB模态相比，深度图像缺乏大规模、高质量的自监督基础模型，导致深度表征学习滞后，限制了跨任务、跨环境、跨传感器的泛化能力与sim-to-real迁移效果。这是一个尚未被系统解决的新问题。
关键思路

提出DeFM——首个完全基于深度图像（非RGB或RGB-D）训练的自监督基础模型；采用DINO风格的自蒸馏框架，在6000万张深度图上学习几何-语义联合表征；创新性引入尺度不变的输入归一化策略以保持度量一致性，并通过知识蒸馏生成轻量级变体适配边缘机器人平台。
其它亮点

在分类、分割、导航、足式/轮式运动、灵巧操作等5类深度原生任务上全面超越现有方法；验证了强sim-to-real泛化能力（如从仿真深度图直接部署至RealSense/D435、Azure Kinect等真实传感器）；发布全系列预训练模型（含ViT-S/B/L及蒸馏版），支持开箱即用、零样本或线性探测评估；数据集经多源清洗（仿真+真实）、去畸变、对齐与深度有效性过滤；代码与模型已开源（https://de-fm.github.io/）；未来可探索多模态对齐（如DeFM+CLIP）、动态深度建模与闭环控制集成。
相关研究

DINO (2021), MAE (2022), DepthAnything (2023), OmniDepth (2022), RoboCLIP (2023), Open-VLA (2024), VLN-BERT for depth navigation (2021), DenseDepth (2018)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问