Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference

2024年06月26日
  • 简介
    人类可以轻易地推断出未见过的物体的相对姿态,只需要一个查询-参考图像对,而无需标签或训练。这可能是通过将(i)从单个图像中感知三维/二点五维形状,(ii)渲染和比较模拟以及(iii)丰富的语义线索融合来实现的,以提供(粗略的)参考-查询对应关系。现有方法通过三维CAD模型或经过校准的多个图像实现(i),通过训练特定物体的网络实现(ii),这需要耗费大量的标注和繁琐的训练,可能导致泛化方面的挑战。此外,(ii)范式中较少利用(iii),尽管(iii)中的粗略对应关系通过在实质姿态差异/遮挡下过滤非重叠部分来增强比较过程。受此启发,我们提出了一种新的三维通用相对姿态估计方法,通过使用(i)来自RGB-D参考的二点五维形状,(ii)来自现成的可微分渲染器,以及(iii)来自预训练模型(如DINOv2)的语义线索来详细说明(i)。具体而言,我们的可微分渲染器采用由RGB和语义地图纹理化的2.5D可旋转网格,然后在新的旋转视图下呈现新的RGB和语义地图(带有背面剔除)。精炼损失来自将呈现的RGB和语义地图与查询图像进行比较,通过可微分渲染器反向传播梯度以精炼三维相对姿态。因此,我们的方法可以轻松应用于未见过的物体,只需一个RGB-D参考,无需标签或训练。在LineMOD、LM-O和YCB-V上进行的大量实验表明,我们的无需训练方法在严格的Acc@5/10/15度度量和具有挑战性的跨数据集设置下显着优于SOTA监督方法。
  • 图表
  • 解决问题
    提出一种新的方法,解决单个RGB-D图像相对位姿估计的问题,而无需进行标记或训练。该方法旨在通过整合3D/2.5D形状感知、渲染和比较模拟以及丰富的语义线索来实现。
  • 关键思路
    使用RGB-D参考图像的2.5D形状、可微分渲染器和预训练模型中的语义线索来推断相对位姿。具体地,可微分渲染器将2.5D可旋转网格与语义映射和RGB纹理结合使用,渲染新的RGB和语义映射。通过将渲染的RGB和语义映射与查询图像进行比较,通过可微分渲染器反向传播梯度以优化3D相对位姿。
  • 其它亮点
    该方法不需要进行标记或训练,可以应用于未见过的物体。在LineMOD、LM-O和YCB-V数据集上进行的实验表明,该方法在严格的Acc@5/10/15度指标和具有挑战性的跨数据集设置下,明显优于SOTA监督方法。
  • 相关研究
    现有的方法主要使用3D CAD模型或多个图像进行训练,或者通过训练网络来实现渲染和比较模拟。然而,这些方法需要进行繁琐的标记和训练,并且可能面临泛化方面的挑战。此外,语义线索在现有的方法中得到的利用较少。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论