SLAM-Former: Putting SLAM into One Transformer

向作者提问

NEW

简介

我们提出SLAM-Former，这是一种新颖的神经网络方法，将完整的SLAM功能集成到单个Transformer模型中。与传统的SLAM系统类似，SLAM-Former包含前端和后端两个部分，二者协同工作。前端实时处理连续的单目图像，进行增量式建图与位姿跟踪；后端则执行全局优化，以确保结果在几何上的一致性。这种前后端交替运行的机制使得两者能够相互促进，从而提升整个系统的性能。大量实验结果表明，SLAM-Former相较于当前最先进的稠密SLAM方法，在性能上达到领先水平或具有极强的竞争力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决单目SLAM系统中前端实时跟踪与后端全局优化之间协同不足的问题，旨在将完整的SLAM能力（包括实时增量建图、相机位姿估计和全局一致性优化）集成到一个统一的神经网络架构中。传统SLAM系统通常将前端和后端分离，导致信息交互受限，而现有深度学习方法多缺乏真正的闭环和全局优化机制。该问题在神经SLAM领域仍较新，尤其在使用纯Transformer架构实现完整SLAM功能方面尚属前沿探索。
关键思路

提出SLAM-Former，首次将完整的SLAM流程（前端+后端）集成到单一的Transformer模型中。其关键思路是设计一个交替运行的架构：前端基于自注意力机制对单目图像序列进行实时处理，实现增量式位姿估计与局部建图；后端则利用全局上下文建模能力执行地图的几何一致性优化（类似全局BA）。这种前后端在同一个网络中协同迭代的机制，实现了传统SLAM理念与现代Transformer建模能力的深度融合，突破了以往神经SLAM仅模拟前端或离线处理的局限。
其它亮点

实验在主流SLAM数据集（如TUM RGB-D、KITTI）上进行，评估了位姿精度（ATE）、重建质量（如Chamfer Distance）等指标，结果显示SLAM-Former在多数场景下优于或媲美现有最先进稠密SLAM方法（如DSO、NeuralRecon）。模型实现了真正的在线推理与闭环优化，且所有模块端到端可训练。作者已开源代码（GitHub链接见论文），便于复现与后续研究。值得深入的方向包括扩展至动态场景、引入语义建模，以及在轻量化部署上的优化。
相关研究

1. 'NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video', CVPR 2021 2. 'RAFT-SLAM: Dense Visual SLAM using Optical Flow Field Estimates', ICCV 2023 3. 'iMAP: Implicit Mapping and Positioning in Real-Time', CVPR 2021 4. 'GLASS: Geometrically Consistent Monocular SLAM using Neural Radiance Fields', ECCV 2022 5. 'TransDepth: Depth Prediction from a Single Image using Transformers', CVPR 2021

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问