Diffusion-Driven Self-Supervised Learning for Shape Reconstruction and Pose Estimation

2024年03月19日
  • 简介
    完全监督的类别级姿态估计旨在确定已知类别的未见实例的6自由度姿态,需要昂贵的手动标记成本。最近,提出了各种自我监督的类别级姿态估计方法,以减少注释数据集的要求。然而,大多数方法依赖于合成数据或3D CAD模型进行自我监督训练,并且通常仅限于解决单个对象姿态问题,而不考虑多目标任务或形状重建。为了克服这些挑战和限制,我们引入了一种扩散驱动的自我监督网络,用于多对象形状重建和类别姿态估计,仅利用形状先验知识。具体而言,为了捕捉SE(3)-等变姿态特征和3D尺度不变形状信息,我们在网络中提出了一个先验感知金字塔3D点变换器。该模块采用带有径向核的点卷积层进行姿态感知学习,采用3D尺度不变图卷积层进行对象级形状表示。此外,我们引入了一个预训练到精调的自我监督训练范例来训练我们的网络。它使得我们提出的网络能够通过利用扩散机制来捕捉形状先验和观察之间的关联,从而解决了类内形状变化的挑战。在四个公共数据集和一个自建数据集上进行的大量实验表明,我们的方法明显优于最先进的自我监督类别级基线,甚至超过了一些完全监督的实例级和类别级方法。
  • 图表
  • 解决问题
    本论文旨在提出一种新的自监督学习方法,用于多物体形状重建和分类位姿估计。这种方法只利用形状先验信息,以减少标注数据的需求。
  • 关键思路
    本论文提出了一种扩散驱动的自监督网络,通过利用形状先验信息来实现多物体形状重建和分类位姿估计。具体来说,论文采用了Prior-Aware Pyramid 3D Point Transformer模块,通过使用径向卷积层和3D尺度不变图卷积层来捕捉SE(3)-等变位姿特征和3D尺度不变形状信息。此外,论文还引入了预训练-精炼自监督训练范式,来训练网络。
  • 其它亮点
    本论文在四个公共数据集和一个自建数据集上进行了广泛的实验,结果表明,该方法明显优于最先进的自监督类别级基线,甚至超过了一些完全监督的实例级和类别级方法。此外,该论文还开源了代码。
  • 相关研究
    最近的相关研究包括:Self-Supervised Learning of 3D Objects from Natural Images with Adversarial Transformations、Unsupervised Learning of Object Landmarks by Factorized Spatial Embeddings、Unsupervised Learning of Intrinsic Structural Representation Points。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论