- 简介视觉定位技术依赖于某些基础场景表示来进行定位。这些表示可以是显式的,例如三维SFM地图,也可以是隐式的,例如学习编码场景的神经网络。前者需要稀疏特征提取器和匹配器来构建场景表示。后者可能缺乏几何基础,无法很好地捕捉场景的三维结构。本文提出了一种联合学习场景表示、三维密集特征场和二维特征提取器的方法,它们的输出被嵌入到相同的度量空间中。通过对比框架,我们将这个体积场与基于图像的提取器进行对齐,并通过来自学习表面信息的排名损失来规范化后者。我们通过体积渲染来学习场景的隐式场下的基础几何,并设计我们的特征场来利用编码在隐式场中的中间几何信息。结果特征具有鉴别性和对视角变化的鲁棒性,同时保持了丰富的编码信息。然后通过将基于图像的特征与渲染的体积特征对齐来实现视觉定位。我们展示了我们的方法在实际场景中的有效性,并证明了我们的方法在利用隐式场景表示进行定位方面优于之前和同时进行的工作。
-
- 图表
- 解决问题论文旨在解决视觉定位中的场景表示问题,即如何同时学习场景表示、3D密集特征场和2D特征提取器,并将它们嵌入到相同的度量空间中以实现视觉定位。
- 关键思路论文提出了一种基于对比学习框架的方法,通过对隐式场的体积渲染来学习场景的几何信息,设计特征场以利用编码在隐式场中的中间几何信息。最终实现了通过对齐基于图像的特征和渲染的体积特征来实现视觉定位的目标。
- 其它亮点该方法的关键亮点包括:通过对比学习框架实现了场景表示、3D密集特征场和2D特征提取器的联合学习;通过隐式场的体积渲染来学习场景的几何信息;设计特征场以利用编码在隐式场中的中间几何信息;实验结果表明该方法具有鲁棒性和较高的定位准确率。
- 在这个领域中,最近的相关研究包括:DeepTIO、Neural-SLAM、Neural-GPS等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流