Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection

2024年06月02日
  • 简介
    本文提出了一种名为CoDAv2的统一框架,旨在创新性地解决在有限基础类别条件下定位和分类新型三维物体的问题。针对定位问题,本文提出了3D Novel Object Discovery(3D-NOD)策略,利用三维几何和二维开放词汇语义先验,在训练过程中发现新型物体的伪标签。3D-NOD还通过Enrichment策略进一步扩大了训练场景中新型物体的分布,从而增强了模型定位更多新型物体的能力。3D-NOD与Enrichment结合被称为3D-NODE。针对分类问题,Discovery-driven Cross-modal Alignment(DCMA)模块对来自三维点云和二维/文本模态的特征进行对齐,采用类不可知和类特定对齐,通过迭代精化来处理物体词汇的扩展。此外,2D框引导提高了分类准确性,抵抗复杂背景噪声,被称为Box-DCMA。广泛的评估证明了CoDAv2的优越性。CoDAv2的表现优于表现最佳的方法(在SUN-RGBD上的AP_Novel为9.17 vs. 3.61,在ScanNetv2上为9.12 vs. 3.74)。源代码和预训练模型可在GitHub项目页面上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决在3D场景中检测任意列表中的新类别物体的问题,提出了CoDAv2框架,该框架旨在创新性地解决新物体的定位和分类问题。
  • 关键思路
    CoDAv2框架采用3D Novel Object Discovery(3D-NOD)策略和Discovery-driven Cross-modal Alignment(DCMA)模块来解决新物体的定位和分类问题。3D-NOD策略利用3D几何和2D开放词汇语义先验,在训练期间发现新物体的伪标签。DCMA模块通过对3D点云和2D /文本模态的特征进行对齐来分类新物体。
  • 其它亮点
    实验结果表明,CoDAv2相比最佳表现方法在SUN-RGBD和ScanNetv2数据集上有显著优势。论文开放了源代码和预训练模型。
  • 相关研究
    最近的相关研究包括:3D object detection with point cloud generative adversarial network,3DSSD: Point-based 3D Single Stage Object Detector,Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal 3D Object Detection。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问