Weak-to-Strong 3D Object Detection with X-Ray Distillation

2024年03月31日
  • 简介
    本文探讨了基于激光雷达的三维物体检测中稀疏性和遮挡等关键挑战。目前的方法通常依赖于补充模块或特定的架构设计,可能限制它们对新的和不断发展的架构的适用性。据我们所知,我们是第一个提出一种通用技术的人,该技术可以无缝地集成到任何现有的三维物体检测框架中,标志着三维计算机视觉中弱到强的普适性的第一例。我们引入了一种新颖的框架,即具有完整物体帧的X射线蒸馏框架,适用于监督和半监督设置,利用点云序列的时间特性。该方法从前面和后面的激光雷达帧中提取关键信息,创建完整的物体帧,从多个视角表示物体,从而解决了遮挡和稀疏性问题。鉴于在线推理期间无法生成完整的物体帧的限制,我们在教师-学生框架内使用知识蒸馏。该技术鼓励强大的学生模型模仿较弱的教师的行为,后者处理简单且信息丰富的完整物体帧,有效地提供了综合的物体视图,就像通过X射线视觉看到一样。我们提出的方法在半监督学习方面超越了现有技术1-1.5 mAP,并在标准自动驾驶数据集上提高了五个已建立的监督模型的1-2 mAP,即使使用默认超参数。完整物体帧的代码可在此处获得:https://github.com/sakharok13/X-Ray-Teacher-Patching-Tools。
  • 图表
  • 解决问题
    解决问题:本文试图解决LiDAR-based 3D目标检测中的稀疏性和遮挡问题。是否是一个新问题?
  • 关键思路
    关键思路:提出了一种新的框架——X-Ray Distillation with Object-Complete Frames,利用点云序列的时间因素,从前后LiDAR帧中提取关键信息,创造出多视角的Object-Complete帧,以处理遮挡和稀疏性问题。使用知识蒸馏在Teacher-Student框架内进行弱到强的泛化,使得强的Student模型能够像弱的Teacher模型一样处理简单而信息丰富的Object-Complete帧,从而提高检测性能。
  • 其它亮点
    其他亮点:本文的方法不依赖于特定的模块或架构设计,可无缝集成到任何现有的3D目标检测框架中,从而实现了3D计算机视觉中的弱到强的泛化。在半监督学习中,本文的方法超过了现有方法1-1.5 mAP,在五个已有的监督模型上,即使使用默认超参数,也将性能提高了1-2 mAP。本文开源了Object-Complete frames的代码。
  • 相关研究
    相关研究:最近的相关研究包括:"SqueezeSegV3: Spatially-Adaptive Convolution for Efficient Point-Cloud Segmentation","PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论