- 简介本文提出了一种文本到点云的跨模态定位方法,这是未来机器人与人类协作的关键任务。该方法通过几个自然语言指令,在城市规模的点云场景中定位一个位置。我们解决了现有方法的两个主要限制:1)它们依赖于输入的真实实例;2)它们忽略了潜在实例之间的相对位置。我们提出的模型采用了两阶段流程,包括粗略阶段的文本单元检索和精细阶段的位置估计。在两个阶段中,我们引入了实例查询提取器,其中单元由3D稀疏卷积U-Net编码,以生成多尺度点云特征,并且一组查询迭代地关注这些特征以表示实例。在粗略阶段,我们设计了一个行列相对位置感知自注意力(RowColRPA)模块,以捕捉实例查询之间的空间关系。在精细阶段,我们开发了一个多模态相对位置感知交叉注意力(RPCA)模块,用于融合文本和点云特征以及空间关系,以提高精细位置估计的性能。在KITTI360Pose数据集上的实验结果表明,我们的模型在不使用真实实例作为输入的情况下取得了与最先进模型相当的性能。
- 图表
- 解决问题本文旨在解决文本到点云跨模态定位的问题,即根据自然语言指令在城市规模点云场景中定位一个位置。同时,该论文试图解决现有方法的两个限制:依赖于真实实例作为输入和忽略潜在实例之间的相对位置。
- 关键思路本文提出了一个两阶段的模型,包括一个粗略阶段用于文本单元检索和一个精细阶段用于位置估计。在两个阶段中,引入了实例查询提取器,其中单元由3D稀疏卷积U-Net编码以生成多尺度点云特征,并且一组查询迭代地关注这些特征以表示实例。在粗略阶段,设计了一个行列相对位置感知自注意力(RowColRPA)模块,以捕捉实例查询之间的空间关系。在精细阶段,开发了一个多模态相对位置感知交叉注意力(RPCA)模块,用于融合文本和点云特征以及空间关系,以提高精细位置估计。
- 其它亮点该模型在KITTI360Pose数据集上表现出有竞争力的性能,而无需将真实实例作为输入。实验设计合理,数据集丰富,代码已经开源。该领域的未来研究方向包括如何提高模型的鲁棒性和解决更多的跨模态问题。
- 相关研究包括:1)基于图像和文本的跨模态定位;2)基于视觉和语义信息的目标检测;3)基于点云的视觉定位。
沙发等你来抢
去评论
评论
沙发等你来抢