FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Bowen Wen ,
Wei Yang ,
Jan Kautz ,
Stan Birchfield
2023年12月13日
  • 简介
    我们提出了FoundationPose,这是一个统一的基础模型,用于6D物体姿态估计和跟踪,支持基于模型和无模型的设置。我们的方法可以立即应用于新的物体测试中,只要给定其CAD模型或捕获少量参考图像。我们通过神经隐式表示来弥合这两种设置之间的差距,这种表示允许有效的新视角合成,并在同一统一框架下保持下游姿态估计模块的不变性。通过大规模合成训练、大型语言模型(LLM)、新型基于transformer的架构和对比学习公式的帮助,实现了强大的泛化能力。在涉及具有挑战性的场景和物体的多个公共数据集上进行的广泛评估表明,我们的统一方法比专门针对每个任务的现有方法表现优异。此外,尽管假设减少了,它甚至实现了与实例级方法相当的结果。项目页面:https://nvlabs.github.io/FoundationPose/
  • 图表
  • 解决问题
    本文旨在提出一种统一的基础模型——FoundationPose,用于6D物体姿态估计和跟踪,支持基于模型和基于无模型的设置。该模型可以立即应用于新的物体,而无需微调,只要给出其CAD模型或拍摄少量参考图像即可。通过神经隐式表示,我们弥合了这两种设置之间的差距,允许有效的新视图合成,并在同一统一框架下保持下游姿态估计模块不变。通过大规模的合成训练、大型语言模型(LLM)、新型变压器架构和对比学习公式的帮助,实现了强大的通用性。在多个公共数据集上进行了广泛的评估,涉及具有挑战性的场景和对象,结果表明我们的统一方法在性能上优于现有的专门针对每个任务的方法。此外,尽管假设减少了,但它甚至实现了与实例级方法相当的结果。
  • 关键思路
    本文提出了一种统一的基础模型——FoundationPose,用于6D物体姿态估计和跟踪,支持基于模型和基于无模型的设置。通过神经隐式表示,我们弥合了这两种设置之间的差距,允许有效的新视图合成,并在同一统一框架下保持下游姿态估计模块不变。通过大规模的合成训练、大型语言模型(LLM)、新型变压器架构和对比学习公式的帮助,实现了强大的通用性。
  • 其它亮点
    本文的亮点包括:1. 提出了一种统一的基础模型——FoundationPose,用于6D物体姿态估计和跟踪;2. 通过神经隐式表示,实现了有效的新视图合成,并在同一统一框架下保持下游姿态估计模块不变;3. 通过大规模的合成训练、大型语言模型(LLM)、新型变压器架构和对比学习公式的帮助,实现了强大的通用性;4. 在多个公共数据集上进行了广泛的评估,结果表明我们的统一方法在性能上优于现有的专门针对每个任务的方法;5. 尽管假设减少了,但它甚至实现了与实例级方法相当的结果。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:1. DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion;2. PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation;3. PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes;4. 6-PACK: Category-level 6D Object Pose Tracking with Anchor-Based Keypoints;5. Learning to Estimate 3D Hand Pose from Single RGB Images。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论