- 简介本文研究了一个新的开放集问题,即开放词汇类别级物体姿态和大小估计。给定任意新物体类别的人类文本描述,机器人代理寻求预测观察场景图像中目标物体的位置、方向和大小。为了实现这样的泛化,我们首先介绍了OO3D-9D,这是一个用于此任务的大规模逼真数据集。OO3D-9D源自OmniObject3D,是类别级物体姿态和大小估计领域中最大和最多样化的数据集。它包括每个类别的对称轴的附加注释,有助于解决对称模糊。除了大规模数据集外,我们发现实现这种泛化的另一个关键是利用预训练视觉语言基础模型中的强大先验知识。然后,我们提出了一个基于预训练DinoV2和文本到图像稳定扩散模型的框架,以推断目标实例的归一化对象坐标空间(NOCS)映射。该框架充分利用了DinoV2的视觉语义先验和文本到图像扩散模型中对齐的视觉和语言知识,从而实现了对新类别各种文本描述的泛化。全面的定量和定性实验表明,所提出的开放词汇方法,在我们的大规模合成数据上训练,显著优于基线,并能有效地推广到未见类别的真实世界图像。该项目页面位于https://ov9d.github.io。
- 图表
- 解决问题本论文旨在解决一种新的开放式问题,即基于开放词汇的类别级目标姿态和尺寸估计。给定任意新物体类别的人类文本描述,机器人代理试图预测观察场景图像中目标物体的位置、方向和尺寸。
- 关键思路本文提出了一个基于预训练视觉语言模型的框架,利用DinoV2和文本到图像稳定扩散模型来推断目标实例的标准化对象坐标空间(NOCS)映射。该框架充分利用了DinoV2的视觉语义先验和文本到图像扩散模型中对齐的视觉和语言知识,从而实现了对新类别的各种文本描述的泛化。
- 其它亮点本文介绍了一个大规模的照片级数据集OO3D-9D,是目前类别级目标姿态和尺寸估计领域中最大和最多样化的数据集之一。此外,本文还提出了一种解决对称歧义的方法,即为每个类别添加对称轴的附加注释。实验结果表明,本文提出的开放式词汇方法在大规模合成数据集上训练,显著优于基线,并且可以有效地推广到看不见的类别的真实世界图像。
- 最近在这个领域中,还有一些相关研究,如:《Unsupervised Learning of Object Keypoints for Perception and Control》、《Learning to Learn from Simulation》、《The Visual Object Tracking VOT2019 Challenge Results》等。
沙发等你来抢
去评论
评论
沙发等你来抢