Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments

2024年03月20日
  • 简介
    本文针对当前基于LiDAR的三维物体检测系统的限制进行了研究,这些系统受限于受限的类别词汇和注释新物体类别所需的高成本。我们在城市环境中探索开放式词汇(OV)学习,旨在使用预先训练的视觉语言模型(VLM)和多传感器数据捕捉新实例。我们设计并基准测试了四个潜在的解决方案作为基线,根据它们的输入数据策略将它们分类为自上而下或自下而上的方法。虽然这些方法是有效的,但它们存在某些限制,例如在三维框估计中丢失新物体或应用严格的先验,导致对靠近相机或具有矩形几何的物体的偏见。为了克服这些限制,我们引入了一种通用的“查找和传播”方法,用于3D OV任务,旨在最大化新物体的召回率,并将这种检测能力传播到更远的区域,从而逐步捕获更多的物体。特别是,我们利用贪婪的框搜索器在每个生成的锥体中搜索不同方向和深度的3D新框,并通过交叉对齐和密度排序器确保新识别的框的可靠性。此外,所提出的远程模拟器缓解了对相机近距离物体的偏见,该模拟器在自我训练过程中随机多样化伪标记的新实例,并与记忆库中的基础样本融合。广泛的实验表明,在不同的OV设置、VLM和3D检测器中,新物体的召回率提高了53%。值得注意的是,我们实现了新物体类别平均精度(AP)高达3.97倍的增长。源代码在补充材料中提供。
  • 图表
  • 解决问题
    解决问题:本文旨在解决当前基于LiDAR的3D目标检测系统存在的受限类词汇和注释新对象类别的高成本限制问题,通过使用预训练的视觉语言模型(VLM)和多传感器数据来捕捉新实例的开放词汇(OV)学习在城市环境中的探索。
  • 关键思路
    关键思路:本文提出了一种通用的“查找和传播”方法,旨在最大化新对象的召回率,并将此检测能力传播到更远的区域,从而逐步捕获更多目标。具体而言,使用贪心框搜索器在每个生成的锥体中搜索不同方向和深度的3D新框,并通过交叉对齐和密度排序器来确保新识别的框的可靠性。此外,通过伪标记新实例的随机多样性和基础样本的融合,结合内在的偏差,缓解了相机近距离对象的影响。
  • 其它亮点
    亮点:本文提出的方法在不同的OV设置、VLMs和3D检测器中,新颖召回率提高了53%,尤其是对于新对象类别,平均精度(AP)提高了3.97倍。实验使用了多个数据集,并提供了源代码。
  • 相关研究
    相关研究:最近的相关研究包括:“Complex-YOLO: Real-time 3D Object Detection on Point Clouds”、“3D Object Detection with Point-based Semantic Segmentation”、“Joint 3D Proposal Generation and Object Detection from View Aggregation”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论