Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

2024年07月16日
  • 简介
    本文提出了一种算法,用于从2D点或框提示自动标记3D对象,特别关注自动驾驶应用。与以前的方法不同,我们的自动标注器预测3D形状而不是边界框,并且不需要在特定数据集上进行训练。我们提出了一种“分割、提升、拟合(SLF)”范式来实现这一目标。首先,我们使用“分割任何物体模型”(SAM)从提示中分割出高质量的实例掩模,并将剩余的问题转换为从给定的2D掩模预测3D形状。由于这个问题的病态性质,它提出了一个重大挑战,因为多个3D形状可以投影成相同的掩模。为了解决这个问题,我们将2D掩模提升到3D形式,并使用梯度下降来调整它们的姿态和形状,直到投影符合掩模且表面符合周围的LiDAR点。值得注意的是,由于我们不在特定数据集上进行训练,SLF自动标注器不会像其他方法那样过度拟合训练集中的偏差注释模式。因此,其在不同数据集之间的泛化能力得到了提高。在KITTI数据集上的实验结果表明,SLF自动标注器产生了高质量的边界框注释,达到了近90%的AP@0.5 IoU。使用生成的伪标签训练的检测器的性能几乎与使用实际的真实注释训练的检测器相当。此外,SLF自动标注器在详细形状预测方面也显示出有希望的结果,为动态对象的占用注释提供了潜在的替代方法。
  • 图表
  • 解决问题
    本论文提出了一种自动标记三维物体的算法,重点是应用于自动驾驶领域。相比之前的工作,该算法不需要在特定数据集上进行训练,预测的是三维形状而不是边界框。
  • 关键思路
    本文提出了一个Segment,Lift和Fit(SLF)的范例来解决这个问题。通过使用Segment Anything Model(SAM)从提示中分割高质量的实例掩码,然后将问题转化为从给定的2D掩码预测3D形状。为了解决这个问题的不适定性,作者将2D掩码提升到3D形式,并使用梯度下降来调整它们的姿态和形状,直到投影适合掩码并且表面符合周围的LiDAR点。
  • 其它亮点
    SLF自动标记器不需要在特定数据集上进行训练,从而提高了不同数据集的泛化能力。在KITTI数据集上的实验结果表明,SLF自动标记器可以产生高质量的边界框注释,达到了近90%的AP@0.5 IoU。使用生成的伪标签训练的检测器的性能几乎与使用实际的ground-truth注释训练的检测器一样好。此外,SLF自动标记器在详细形状预测方面也表现出有希望的结果,为动态对象的占用注释提供了潜在的替代方案。
  • 相关研究
    最近在这个领域中的相关研究包括:“3D Bounding Box Estimation Using Deep Learning and Geometry”和“Joint 3D Proposal Generation and Object Detection from View Aggregation”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论