3D特征点检测在物体识别、场景重建等任务中有着重要作用。然而由于点云数据采样的稀疏性,从中检测出3D特征点是一项很有挑战性的任务。虽然原始点云的获取方式有很多种,如通过RGB-D相机、立体匹配或LIDAR等,但点云仍还是物体(或场景)的连续形状的离散表示。这一现象促使我们去探索了联合重建3D形状任务是否有助于3D关键点检测。

因此,本文提出了名为SNAKE的方法,它是shape-aware neural 3D keypoint field的缩写。受近期基于坐标的神经辐射场和神经距离场的启发,SNAKE将3D坐标作为输入,同时预测该点的空间占有率和特征点显著性,从而自然地将3D特征点检测和形状重建任务耦合在一起。我们在多个公开的基准测试中展现了SNAKE的优越性能,包括物体数据集ModelNet40、KeypointNet,人体数据集SMPL和场景级数据集3DMatch和Redwood。

image.png

论文链接:
https://arxiv.org/abs/2206.01724
代码链接:
https://github.com/zhongcl-thu/SNAKE

一、研究背景

从点云数据中检测3D特征点的方法通常可以被分为基于手工设计和基于数据驱动的方法。前者大多基于局部的统计特性,例如,ISS[1]选择局部邻域内沿每个主轴有很大变化的点,Harris3D[2]利用一阶和二阶导数的特性确定特征点。基于手工设计的方法因缺乏对点云数据全局的感知能力,当输入点云的密度发生变化或受噪声干扰时,通常无法检测到一致的特征点。

基于数据驱动的方法是近几年流行的方法,因其可以从大量点云数据中学习到一致的特征点而备受关注。比如,USIP[3]利用特征点应在输入的几何变换下保持一致的原则,对特征点施加了几何约束,从而构建了一个自监督学习的框架。但是USIP仅考虑了多视角几何约束,未考虑语义一致的特征点的关联性。UKPGAN[4]采用的策略是预测输入点云中每个点的显著性分数,并以此筛选出有效的隐层表征特征,并将该特征送入全连接层以恢复出原来的输入点云。但UKPGAN特征点的数量受输入点个数的影响,且特征点必须从输入点集合中获取,因此其难以应对采样密度变化和噪声等影响。

我们在图1中比较了SNAKE和上述两种方法的差异。USIP网络根据输入点云直接输出特征点坐标。

UKPGAN预测输入点云中每个点的显著性概率,并通过倒角距离重构出原输入的坐标。与上述两种方法不同,SNAKE预测每个查询点而不是输入点云的显著性概率,同时预测查询点的空间占有的概率。不同于UKPGAN,SNAKE期望学习到输入点云对应的连续形状表面而不是离散输入。这种做法的一个直接优势是紧密地耦合了形状重建和3D关键点检测两个任务。试想一下,若有一个飞机翼尖的隐层特征,如果它可以用来重建翼尖的尖锐曲率,它自然可以被检测成为具有高重复性的关键点。

因此,我们的特征点检测方法融合了对形状的感知,它有如下的几个优势:

  • 高可重复性。可重复性是特征点检测重要的指标,即检测算法应该在多视角点云中检测到相同位置的特征点。如上所述,若嵌入特征能够成功地从多视角点云中重建相同的飞机翼尖,那么它们大概率对应着相似的显著性分数。

  • 对点云密度鲁棒。当输入点云变稀疏时,类似UKPGAN的框架只能实现与输入同密度的重建。相比之下,SNAKE因采用了基于坐标的网络,可自然地以任何分辨率重建表面形状。

  • 语义一致性。SNAKE通过跨同一类别不同实例的重建,使得特征点具备语义一致性,例如,因为人体形状本质上是相似的,嵌入特征也必须相似才能成功重建不同的人体。

image.png

图1 现有3D特征点检测方法与我们新提出的方法的比较

内容中包含的图片若涉及版权问题,请及时与我们联系删除