3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving

2024年05月24日
  • 简介
    在自动驾驶领域,点云数据标注被认为是一项耗时且昂贵的任务,而无监督学习可以通过从未标注的数据中学习点云表示来避免这种问题。本文提出了UOV,一种新颖的三维无监督框架,辅助二维开放词汇分割模型。它由两个阶段组成:第一阶段,我们创新地整合了二维开放词汇模型的高质量文本和图像特征,并提出了三模态对比预训练(TMP)。第二阶段,利用点云和图像之间的空间映射生成伪标签,实现跨模态知识蒸馏。此外,我们引入了近似平面交互(AFI)来解决对齐噪声和标签混淆的问题。为了验证UOV的优越性,我们在多个相关数据集上进行了广泛的实验。在nuScenes的无标注点云分割任务中,我们取得了创纪录的47.73% mIoU,比之前最佳模型高出10.70% mIoU。同时,在nuScenes和SemanticKITTI上进行1%数据微调的性能达到了显著的51.75% mIoU和48.14% mIoU,超过了所有先前的预训练模型。
  • 作者讲解
  • 图表
  • 解决问题
    解决点云数据标注的时间和成本问题,提出一种基于2D开放词汇模型辅助的3D无监督框架UOV
  • 关键思路
    UOV框架包含两个阶段:第一阶段使用Tri-Modal对比预训练(TMP)结合2D开放词汇模型的文本和图像特征,第二阶段利用点云和图像之间的空间映射生成伪标签,实现跨模态知识蒸馏
  • 其它亮点
    在多个数据集上进行了广泛实验,取得了47.73% mIoU的记录,超过了之前最好模型10.70% mIoU。同时,在nuScenes和SemanticKITTI上使用1%的数据进行微调,分别达到了51.75% mIoU和48.14% mIoU,优于所有先前的预训练模型。
  • 相关研究
    最近的相关研究包括:Unsupervised Learning of 3D Point Clouds via Graph Topology Inference,Unsupervised Learning of Depth and Ego-Motion from Video
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问