Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion

2024年07月03日
  • 简介
    在城市环境中部署的自主移动机器人必须具备上下文感知能力,即能够区分不同的语义实体,并具有遮挡鲁棒性。目前的方法,如语义场景补全(SSC),需要预先枚举类别集并进行昂贵的人工注释,而表示学习方法则放宽了这些假设,但对遮挡不具有鲁棒性,并且学习的表示针对辅助任务。为了解决这些限制,我们提出了LSMap方法,该方法从视觉基础模型中提取掩码,以预测鸟瞰图中整个场景的连续、开放式的语义和高程感知表示,包括动态实体下方和遮挡区域。我们的模型仅需要一张RGBD图像,不需要人工标签,并且可以实时运行。我们定量地证明了我们的方法优于现有的从头开始训练的语义和高程场景补全模型,并进行了微调。此外,我们展示了我们的预训练表示在无监督的语义场景补全中优于现有的视觉基础模型。我们使用CODa,一个大规模的实际城市机器人数据集来评估我们的方法。补充的可视化、代码、数据和预训练模型将很快公开。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文提出一种LSMap方法,旨在解决城市环境中自主移动机器人的场景感知问题,包括语义实体的区分和遮挡问题。
  • 关键思路
    关键思路:LSMap方法通过从视觉基础模型中提取掩模,预测连续、开放式的语义和高程感知表示,以鸟瞰图方式呈现整个场景,包括动态实体下方和遮挡区域。
  • 其它亮点
    其他亮点:LSMap方法只需要一张RGBD图像,不需要人工标注,并且能够实时运行。实验结果表明,该方法在语义和高程场景完成任务上优于现有模型,并且在无监督语义场景完成方面,预训练表示优于现有视觉基础模型。论文使用CODa数据集进行了评估,同时提供了补充可视化、代码、数据和预训练模型。
  • 相关研究
    相关研究:最近的相关研究包括语义场景完成和表示学习方法。其中一些论文包括:《Amodal Completion and Size Constancy in Natural Scenes》、《Representation Learning for Scene Completion from RGB-D Data》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问