- 简介最近的开放词汇3D实例分割研究表现出强大的潜力,但代价是推理速度慢和计算需求高。这种高计算成本通常是由于它们严重依赖3D剪辑特征,这些特征需要计算昂贵的2D基础模型,如Segment Anything (SAM)和CLIP,以进行多视角聚合成3D。因此,这阻碍了它们在许多需要快速且准确预测的实际应用中的适用性。为此,我们提出了一种快速而准确的开放词汇3D实例分割方法,称为Open-YOLO 3D,该方法有效地利用多视角RGB图像中仅2D对象检测进行开放词汇3D实例分割。我们通过为场景中的对象生成类不可知的3D掩码并将其与文本提示相关联来解决此任务。我们观察到,类不可知的3D点云实例的投影已经包含实例信息;因此,使用SAM可能只会导致不必要地增加推理时间的冗余。我们经验性地发现,使用2D对象检测器可以更快地实现将文本提示与3D掩码匹配的更好性能。我们在两个基准测试中验证了我们的Open-YOLO 3D,即ScanNet200和Replica,在两种情况下:(i)使用地面真实掩码,在给定对象提议时需要标签,以及(ii)使用从3D提议网络生成的类不可知3D提议。我们的Open-YOLO 3D在两个数据集上均实现了最先进的性能,同时与文献中最佳现有方法相比,获得了高达$\sim$16倍的加速。在ScanNet200 val.集上,我们的Open-YOLO 3D实现了24.7%的平均精度(mAP),同时每场景运行22秒。代码和模型可在github.com/aminebdj/OpenYOLO3D上获得。
- 图表
- 解决问题本文旨在提出一种快速而准确的开放词汇3D实例分割方法,该方法仅利用多视角RGB图像的2D对象检测来实现。
- 关键思路本文提出了一种使用类不可知3D掩模与文本提示关联的方法来解决开放词汇3D实例分割的问题,避免了使用3D剪辑特征所需的高计算要求。
- 其它亮点本文提出的Open-YOLO 3D方法在两个基准测试中均取得了最先进的性能,并且相比现有方法获得了高达16倍的加速。作者还提供了代码和模型。
- 近期的相关研究包括:'Segment Anything: An Efficient and Effective Object Detection Approach for Large Scenes in 3D' 和 'CLIP: Learning Convolutional Layers for Image-to-Image Translation with Conditional Adversarial Networks'。
沙发等你来抢
去评论
评论
沙发等你来抢