3D Feature Distillation with Object-Centric Priors

2024年06月26日
  • 简介
    将自然语言与物理世界联系起来是计算机视觉和机器人领域中一个广泛应用的话题。最近,2D视觉语言模型,如CLIP,因其在2D图像中具有开放词汇接地能力而广泛流行。最近的研究旨在通过特征蒸馏将2D CLIP特征提升到3D,但要么学习场景特定的神经场,因此缺乏泛化能力,要么专注于需要访问多个相机视图的室内房间扫描数据,这在机器人操作场景中是不切实际的。此外,相关方法通常在像素级别融合特征,并假定所有相机视图具有相同的信息量。在这项工作中,我们展示了这种方法会导致3D特征的地面精度和分割清晰度都不够优秀。为了缓解这种情况,我们提出了一种多视角特征融合策略,该策略利用物体为中心的先验知识,根据语义信息消除无信息的视图,并通过实例分割掩码在对象级别上融合特征。为了提炼我们的物体为中心的3D特征,我们生成了一个大规模的合成多视角数据集,其中包含超过3300个唯一物体实例的15k个杂乱桌面场景,并公开提供。我们展示了我们的方法使用单视角RGB-D重建了具有改进接地能力和空间一致性的3D CLIP特征,因此不再假定测试时需要多个相机视图。最后,我们展示了我们的方法可以推广到新的桌面领域,并且可以在不进行微调的情况下重新用于3D实例分割,并展示了它在语言引导的机器人抓取杂乱场景中的实用性。
  • 解决问题
    本文旨在解决自然语言与物理世界之间的联系问题,提出了一种基于多视角特征融合和对象中心先验的方法来提高三维特征的精度和分割清晰度,同时从单视角RGB-D数据中重建三维CLIP特征,为语言引导机器人抓取提供支持。
  • 关键思路
    本文提出了一种基于多视角特征融合和对象中心先验的方法,通过利用语义信息消除无用视角,并通过实例分割蒙版在对象级别上融合特征,从而提高三维特征的精度和分割清晰度。
  • 其它亮点
    本文提出的方法在大规模合成的多视角数据集上进行了实验,证明了其能够重建三维CLIP特征,提高了三维特征的精度和分割清晰度。此外,本文还证明了该方法能够推广到新的桌面领域,并能够在不进行微调的情况下重新用于三维实例分割。本文提供了一个开放的数据集,并且实验结果表明该方法对于语言引导机器人抓取具有实用价值。
  • 相关研究
    最近的相关研究包括使用CLIP进行图像和文本匹配的工作,以及使用多视角数据进行三维物体重建的工作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论