- 简介本文提出了一种算法,可以从2D点或框提示自动标记3D物体,特别关注自动驾驶应用。与以前的方法不同,我们的自动标记器预测3D形状而不是边界框,并且不需要在特定数据集上进行训练。我们提出了一个“分割、提升和拟合(SLF)”范例来实现这个目标。首先,我们使用“分割任何东西模型”(SAM)从提示中分割出高质量的实例掩码,并将剩余的问题转化为从给定的2D掩码预测3D形状。由于这个问题的不适定性质,它提出了一个重要的挑战,因为多个3D形状可以投影到相同的掩码中。为了解决这个问题,我们将2D掩码转化为3D形式,并使用梯度下降来调整它们的姿态和形状,直到投影符合掩码并且表面符合周围的LiDAR点。值得注意的是,由于我们不在特定的数据集上进行训练,SLF自动标记器不会像其他方法那样过度拟合训练集中的偏差注释模式。因此,跨不同数据集的泛化能力得到了提高。在KITTI数据集上的实验结果表明,SLF自动标记器产生了高质量的边界框注释,达到了近90%的AP@0.5 IoU。使用生成的伪标签训练的检测器的性能几乎与使用实际的真实注释训练的检测器一样好。此外,SLF自动标记器在详细形状预测方面显示出有希望的结果,为动态对象的占用注释提供了潜在的替代方法。
- 图表
- 解决问题论文提出了一种自动标注3D物体的算法,特别是针对自动驾驶应用。该算法不需要在特定数据集上进行训练,可以预测3D形状而不是边界框。
- 关键思路论文提出了一种基于Segment, Lift, and Fit (SLF)范式的算法,通过使用Segment Anything Model (SAM)分割高质量实例掩码,将问题转化为从给定的2D掩码预测3D形状。然后,通过将2D掩码提升到3D形式并使用梯度下降来调整它们的姿态和形状,直到投影适合掩码并且表面符合周围的LiDAR点,来解决3D形状预测的不适定性问题。
- 其它亮点该算法不需要在特定数据集上进行训练,因此不会过拟合到训练集中的偏置注释模式,提高了算法在不同数据集上的泛化能力。实验结果表明,SLF自动标注器可以生成高质量的边界框注释,并且伪标签训练的检测器的性能与使用真实标注训练的检测器的性能相当。此外,该算法在详细形状预测方面也表现出色,为动态对象的占用注释提供了潜在的替代方案。
- 最近的相关研究包括:《3D Bounding Box Estimation Using Deep Learning and Geometry》、《Frustum PointNets for 3D Object Detection from RGB-D Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢