- 简介在6D姿态估计任务中,对于未见过的物体进行泛化是非常具有挑战性的。虽然视觉语言模型(VLMs)可以利用自然语言描述来支持未见过物体的6D姿态估计,但这些解决方案与基于模型的方法相比表现不佳。本文介绍了Horyon,这是一种基于开放词汇的VLM架构,用于描述仅由文本提示的未见过物体的两个场景之间的相对姿态估计。我们使用文本提示来识别场景中的未见过物体,然后获得高分辨率的多尺度特征。这些特征用于提取跨场景匹配进行配准。我们在一个基准测试中评估了我们的模型,该测试涵盖了四个数据集中各种未见过的物体,即REAL275、Toyota-Light、Linemod和YCB-Video。我们的方法在所有数据集上均取得了最先进的性能,在平均召回率方面比之前表现最好的方法提高了12.6。
- 图表
- 解决问题本论文旨在解决6D姿态估计中的一个挑战性问题:对于未见过的物体,如何使用自然语言描述来支持6D姿态估计?
- 关键思路本文提出了一种基于自然语言描述的开放词汇表的VLM架构Horyon,用于解决两个场景中未见过物体的相对姿态估计问题。该方法使用文本提示来识别场景中的未见过物体,并获取高分辨率的多尺度特征,用于提取跨场景匹配进行配准。
- 其它亮点本文使用了REAL275、Toyota-Light、Linemod和YCB-Video四个数据集进行评估,实验结果表明该方法在所有数据集上均取得了最先进的性能,平均召回率比之前最好的方法提高了12.6。另外,本文提供了开源代码。
- 与本文相关的研究包括:Vision-Language Models(VLMs)在6D姿态估计中的应用,基于模型的方法在6D姿态估计中的研究,以及其他基于自然语言描述的视觉任务的研究。
沙发等你来抢
去评论
评论
沙发等你来抢