HSCNet++: Hierarchical Scene Coordinate Classification and Regression for Visual Localization with Transformer
解决问题:本篇论文旨在解决单张RGB图像定位问题。通过提出一种新的层次化场景坐标网络,从单张RGB图像中以粗到细的方式预测像素场景坐标,以实现对大型和模糊环境的定位。
关键思路:本文提出的方法是在HSCNet的基础上进行拓展,可以训练出更紧凑的模型,从而更好地适应大型环境。相比当前领域的研究,本文的思路在于将单个网络的回归任务分解成多个网络的分类任务,从而提高了定位的准确性和鲁棒性。
其他亮点:本文在7-Scenes、12 Scenes、Cambridge Landmarks数据集以及室内场景数据集上均取得了最新的最好结果。实验设计合理,使用了多个数据集和评估指标,但未提供开源代码。本文的方法值得进一步深入研究,特别是在更复杂的环境下的应用。
关于作者:本文的主要作者来自芬兰赫尔辛基大学和腾讯AI实验室。他们之前的代表作包括:Shuzhe Wang在CVPR 2020上发表的“Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective”、Iaroslav Melekhov在ICCV 2019上发表的“Towards Realistic Single-View 3D Object Reconstruction with Unsupervised Learning from Multiple Images”等。
相关研究:近期其他相关的研究包括:“Learning to Localize Sound Sources in Visual Scenes”(作者:Siddharth Dalmia等,机构:麻省理工学院)、“DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion”(作者:Chen Wang等,机构:加州大学伯克利分校)等。
论文摘要:本文介绍了一种新的分层场景坐标网络,以单张RGB图像为输入,以逐层细化的方式预测像素场景坐标。在大型和模糊的环境中,直接学习这样的回归任务对于单个网络来说可能很困难。该方法是HSCNet的扩展,可以训练紧凑的模型,能够在大型环境中稳健地扩展。实验结果表明,该方法在7-Scenes、12 Scenes、Cambridge Landmarks数据集以及室内场景组合数据集上均取得了最新的最优结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢