OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

2024年03月28日
  • 简介
    在当前的3D物体检测研究状态下,缺乏标注的3D数据、不同数据模态之间的巨大差异以及缺乏统一的架构,阻碍了实现普适性目标的进展。在本文中,我们提出了一种名为OV-Uni3DETR的统一开放词汇3D检测器,通过循环模态传播实现。与现有的3D检测器相比,OV-Uni3DETR具有明显的优势:1)开放式词汇的3D检测:在训练期间,它利用各种可用的数据,特别是大量的2D检测图像,来提高训练多样性。在推理期间,它可以检测到已知和未知的类别。2)模态统一:它无缝地适应来自任何给定模态的输入数据,有效地处理涉及不同模态或缺失传感器信息的场景,从而支持测试时的模态切换。3)场景统一:它为不同传感器收集的多样化场景提供了统一的多模型架构。具体而言,我们提出了循环模态传播,旨在传播2D和3D模态之间的知识,支持上述功能。大词汇学习中的2D语义知识指导了3D领域的新类别发现,而3D几何知识为2D检测图像提供了定位监督。OV-Uni3DETR在各种场景下实现了最先进的性能,平均超过现有方法6%以上。其仅使用RGB图像的性能与先前的基于点云的方法相当甚至更好。代码和预训练模型将稍后发布。
  • 图表
  • 解决问题
    OV-Uni3DETR: 一种统一的开放词汇三维检测器,旨在解决目前三维物体检测研究中标注数据稀缺、数据模态差异大、缺乏统一架构等问题。
  • 关键思路
    OV-Uni3DETR通过循环模态传播实现了开放词汇三维检测,能够在训练过程中利用各种可用数据,尤其是大量的二维检测图像,提高训练多样性;在推理过程中,能够检测已知和未知类别;同时,它能够无缝地适应来自任何给定模态的输入数据,有效地解决涉及不同模态或缺失传感器信息的场景,从而支持测试时模态切换。此外,它提供了一个统一的多模型架构,适用于不同传感器收集的多样化场景。
  • 其它亮点
    OV-Uni3DETR通过循环模态传播实现了开放词汇三维检测,能够在训练过程中利用各种可用数据,尤其是大量的二维检测图像,提高训练多样性;在推理过程中,能够检测已知和未知类别;同时,它能够无缝地适应来自任何给定模态的输入数据,有效地解决涉及不同模态或缺失传感器信息的场景,从而支持测试时模态切换。OV-Uni3DETR在各种场景下均取得了最先进的性能,在平均值上超过现有方法6%以上。仅使用RGB图像时,其性能与以前的基于点云的方法相当或甚至更好。论文提供了代码和预训练模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:"3D Object Detection with Pointformer","MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization","3DSSD: Point-based 3D Single Stage Object Detector"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论