- 简介我们提出SLAM-Former,这是一种新颖的神经网络方法,将完整的SLAM功能集成到单个Transformer模型中。与传统的SLAM系统类似,SLAM-Former包含前端和后端两个部分,二者协同工作。前端实时处理连续的单目图像,进行增量式建图与位姿跟踪;后端则执行全局优化,以确保结果在几何上的一致性。这种前后端交替运行的机制使得两者能够相互促进,从而提升整个系统的性能。大量实验结果表明,SLAM-Former相较于当前最先进的稠密SLAM方法,在性能上达到领先水平或具有极强的竞争力。
-
- 图表
- 解决问题论文试图解决单目SLAM系统中前端实时跟踪与后端全局优化之间协同不足的问题,旨在将完整的SLAM能力(包括实时增量建图、相机位姿估计和全局一致性优化)集成到一个统一的神经网络架构中。传统SLAM系统通常将前端和后端分离,导致信息交互受限,而现有深度学习方法多缺乏真正的闭环和全局优化机制。该问题在神经SLAM领域仍较新,尤其在使用纯Transformer架构实现完整SLAM功能方面尚属前沿探索。
- 关键思路提出SLAM-Former,首次将完整的SLAM流程(前端+后端)集成到单一的Transformer模型中。其关键思路是设计一个交替运行的架构:前端基于自注意力机制对单目图像序列进行实时处理,实现增量式位姿估计与局部建图;后端则利用全局上下文建模能力执行地图的几何一致性优化(类似全局BA)。这种前后端在同一个网络中协同迭代的机制,实现了传统SLAM理念与现代Transformer建模能力的深度融合,突破了以往神经SLAM仅模拟前端或离线处理的局限。
- 其它亮点实验在主流SLAM数据集(如TUM RGB-D、KITTI)上进行,评估了位姿精度(ATE)、重建质量(如Chamfer Distance)等指标,结果显示SLAM-Former在多数场景下优于或媲美现有最先进稠密SLAM方法(如DSO、NeuralRecon)。模型实现了真正的在线推理与闭环优化,且所有模块端到端可训练。作者已开源代码(GitHub链接见论文),便于复现与后续研究。值得深入的方向包括扩展至动态场景、引入语义建模,以及在轻量化部署上的优化。
- 1. 'NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video', CVPR 2021 2. 'RAFT-SLAM: Dense Visual SLAM using Optical Flow Field Estimates', ICCV 2023 3. 'iMAP: Implicit Mapping and Positioning in Real-Time', CVPR 2021 4. 'GLASS: Geometrically Consistent Monocular SLAM using Neural Radiance Fields', ECCV 2022 5. 'TransDepth: Depth Prediction from a Single Image using Transformers', CVPR 2021
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流