MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing

向作者提问

NEW

简介

深度视觉里程计通过学习优化技术展示了巨大的进步。这种方法严重依赖于帧间的视觉匹配。然而，在具有挑战性的情况下，模糊的匹配会导致几何建模和束调整优化中出现显著错误，从而削弱了姿态估计的准确性和鲁棒性。为了解决这一挑战，本文提出了MambaVO，它通过稳健的初始化、基于Mamba的顺序匹配精化和平滑训练来提高匹配质量，进而改进深度视觉里程计中的姿态估计。具体来说，当接收到新帧时，它会通过半稠密几何初始化模块（GIM）与维护的点-帧图（PFG）中最接近的关键帧进行匹配。然后，初始化的PFG将通过一个提出的几何Mamba模块（GMM）进行处理，该模块利用匹配特征来细化帧间像素到像素的整体匹配。最终，精化的PFG由深度束调整（deep BA）处理以优化姿态和地图。为了处理梯度方差，提出了一种趋势感知惩罚（TAP），通过平衡姿态损失和匹配损失来平滑训练，从而增强收敛性和稳定性。最后应用了一个回环闭合模块以启用MambaVO++。在公开基准上，MambaVO和MambaVO++展示了最先进的精度性能，同时确保了实时运行性能并降低了GPU内存需求。代码将会公开提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在深度视觉里程计中，由于挑战性场景中的模糊匹配导致几何建模和束调整优化出现重大误差的问题，从而影响姿态估计的准确性和鲁棒性。这是一个在视觉里程计领域长期存在的问题，但通过学习优化技术来解决该问题的方法尚处于发展阶段。
关键思路

论文的关键思路是提出MambaVO系统，通过三个主要步骤增强匹配质量和改进姿态估计：1) 强健初始化，利用点帧图（PFG）进行半稠密几何初始化；2) Mamba基序的顺序匹配精炼，通过几何Mamba模块（GMM）优化像素到像素的匹配；3) 平滑训练，采用趋势感知惩罚（TAP）平衡姿态损失和匹配损失以提高收敛性和稳定性。相比现有研究，MambaVO引入了更精细的匹配精炼过程和新颖的训练平滑机制。
其它亮点

其他值得关注的地方包括：1) 提出了新的Geometric Mamba Module (GMM)，用于优化帧间匹配；2) 使用Trending-Aware Penalty (TAP) 来平滑训练过程，提高模型训练的稳定性和效率；3) 实验设计涵盖了多个公开基准测试，并展示了实时性能和低GPU内存需求；4) 论文作者承诺将代码开源，为后续研究提供支持；5) 应用闭环模块进一步提升系统的准确性，形成了MambaVO++。
相关研究

最近在这个领域的相关研究还包括：1) 'Learning to Optimize for Structured Prediction Problems'，探讨了学习优化在结构化预测问题上的应用；2) 'Deep Learning for Visual Odometry: A Survey'，对深度学习在视觉里程计中的应用进行了综述；3) 'End-to-End Deep Visual Odometry with Unsupervised Learning'，提出了无监督学习框架下的端到端深度视觉里程计方法；4) 'Direct Sparse Odometry'，专注于直接稀疏法在视觉里程计中的应用。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问