- 简介基于检索、局部特征匹配和三维结构姿态估计的相机定位方法精度高,但需要大量存储空间,速度慢,且无法保护隐私。最近提出了一种基于场景地标检测(SLD)的方法来解决这些限制。它涉及训练卷积神经网络(CNN)来检测一些预定的、显著的、场景特定的三维点或地标,并从相关的二维-三维对应中计算相机姿态。虽然SLD优于现有的基于学习的方法,但明显比基于三维结构的方法精度低。本文表明,精度差距是由于训练期间模型容量不足和嘈杂的标签所致。为了缓解容量问题,我们建议将地标分成子组,并为每个子组训练一个单独的网络。为了生成更好的训练标签,我们建议使用密集重建来估计场景地标的可见性。最后,我们提出了一种紧凑的体系结构来提高内存效率。在精度方面,我们的方法与INDOOR-6数据集上最先进的基于结构的方法相当,但运行速度显著更快,使用的存储空间更少。代码和模型可在https://github.com/microsoft/SceneLandmarkLocalization找到。
-
- 图表
- 解决问题本文旨在解决基于检索、本地特征匹配和三维结构姿态估计的相机定位方法所存在的高存储、低速度和不保护隐私的问题,提出了一种基于场景地标检测(SLD)的方法。
- 关键思路文章提出了一种基于卷积神经网络(CNN)的场景地标检测方法,通过训练CNN来检测一些预定的、显著的、场景特定的三维点或地标,并从相关的二维-三维对应中计算相机姿态。
- 其它亮点文章提出了将地标分成子组并为每个子组训练一个单独的网络来缓解模型容量问题,并提出使用密集重建来估计场景地标的可见性以生成更好的训练标签。此外,还提出了一种紧凑的架构来提高内存效率。在INDOOR-6数据集上,本文的方法在精度上与基于三维结构的方法相当,但速度更快,使用的存储空间更少。
- 近期在这个领域中,还有一些相关的研究,如“Camera Pose Estimation via Object Coordinate Regression of SIFT Features”,“Real-Time Seamless Single Shot 6D Object Pose Prediction”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流