- 简介手动操作的物体(即被操作对象)在野外RGB图像或视频中的重建特别具有挑战性。不仅手会遮挡物体的大部分区域,而且物体通常只能在少数像素中看到。同时,在这种情况下出现了两个强大的锚点:(1)估计的3D手可以帮助消除物体的位置和比例的歧义,(2)被操作的物体相对于所有可能的物体来说数量较少。基于这些观点,我们提出了一种可扩展的手持物体重建范例,借鉴了最近大型语言/视觉模型和3D物体数据集的突破。我们的模型MCC-Hand-Object(MCC-HO)在给定单个RGB图像和推断的3D手作为输入的情况下,联合重建手和物体的几何形状。随后,我们使用GPT-4(V)检索与图像中物体匹配的3D物体模型,并将模型刚性对齐到网络推断的几何形状上;我们称这种对齐为检索增强重建(RAR)。实验表明,MCC-HO在实验室和互联网数据集上实现了最先进的性能,并展示了RAR如何用于自动获取手-物体交互的野外图像的3D标签。
- 图表
- 解决问题本文旨在解决从实际场景中的RGB图像或视频中重建手部操作物体的难题。手部经常遮挡住物体的大部分区域,而且物体通常只能在少数像素中看到。本文提出了一种可扩展的手持物体重建范例,通过结合最近大规模语言/视觉模型和3D物体数据集的突破,实现了基于单个RGB图像和推断的3D手部的手部和物体几何联合重建。
- 关键思路本文的关键思路是使用推断的3D手部来帮助消除物体位置和尺度的歧义,同时利用GPT-4(V)检索与图像中物体匹配的3D物体模型,并刚性地将模型对齐到网络推断的几何形状,从而实现检索增强重建(RAR)。
- 其它亮点本文的亮点包括:1. 提出了一种可扩展的手持物体重建范例,实现了手部和物体几何联合重建;2. 使用GPT-4(V)检索与图像中物体匹配的3D物体模型,并刚性地将模型对齐到网络推断的几何形状,从而实现检索增强重建(RAR);3. 在实验中,本文在实验室和互联网数据集上实现了最先进的性能;4. 本文的方法可以用于自动获取手物交互的3D标签。
- 在这个领域中,最近的相关研究包括:1.《Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop》;2.《End-to-End Object Pose Estimation with Transformers》;3.《3D Hand Shape and Pose Estimation from a Single RGB Image》。
沙发等你来抢
去评论
评论
沙发等你来抢