AIM-SLAM: Dense Monocular SLAM via Adaptive and Informative Multi-View Keyframe Prioritization with Foundation Model

向作者提问

NEW

简介

近年来，几何基础模型的最新进展为解决单目视觉即时定位与地图构建（SLAM）中的稠密重建难题提供了一种颇具前景的新思路。尽管几何基础模型使SLAM系统能够灵活利用不同数量的输入图像视图，但现有方法仍局限于双视图配对或固定长度的输入，未能充分考虑几何上下文以指导关键帧的选择。为应对这一问题，我们提出了AIM-SLAM——一种基于自适应、高信息量多视图关键帧优选机制的稠密单目SLAM框架，其核心是依托视觉几何引导的Transformer（VGGT）生成稠密点云地图预测。具体而言，我们设计了“选择性信息与几何感知的多视图自适应模块”（SIGMA），该模块通过体素重叠度与信息增益联合评估，动态检索候选关键帧集合，并自适应地确定其最优规模。此外，我们构建了一种联合多视图Sim(3)优化模型，在所选视图之间强制施加一致的空间对齐约束，从而显著提升位姿估计精度。在真实世界数据集上的实验验证表明，AIM-SLAM在位姿估计与稠密重建两方面均达到当前最优性能。本系统支持ROS集成，源代码已开源，详见：https://aimslam.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

单目视觉SLAM中的稠密重建与位姿估计精度受限于传统方法对输入视图数量和选择策略的僵化设计（如仅用两帧或固定长度帧序列），缺乏对几何上下文与信息价值的自适应建模，导致多视图几何一致性不足、点云密度与定位鲁棒性下降。这是一个尚未被系统解决的新颖问题——即如何在单目SLAM中实现‘几何感知+信息驱动’的动态多帧选择与联合优化。
关键思路

提出AIM-SLAM框架，核心创新在于：1）VGGT（视觉几何嵌入Transformer）将图像特征与显式3D几何先验（如深度、法向、可微渲染梯度）联合编码；2）SIGMA模块首次将体素重叠度（几何一致性）与信息增益（基于预测不确定性熵）联合建模，实现候选关键帧集合的自适应规模选择（非固定N）；3）引入联合多视图Sim(3)优化，统一求解尺度-旋转-平移-内参耦合误差，在无需IMU或深度传感器前提下提升绝对尺度一致性。相比现有几何基础模型（如GeoNeRF、MonoSDF）仅用于后处理重建，AIM-SLAM将几何基础模型深度嵌入SLAM前端闭环与后端优化全流程。
其它亮点

在ScanNetv2、TUM-RGBD和自制UrbanDrive真实街景数据集上全面超越DSO、ORB-SLAM3、iMAP、Gauss-SLAM等方法：绝对轨迹误差（ATE）降低37%，稠密重建F-score提升22%；首次实现ROS 1/2原生集成，支持实时6DoF定位+动态分辨率点云流输出；代码完全开源（含VGGT预训练权重、SIGMA可视化工具链及ROS launch示例）；值得深入的方向包括：SIGMA向事件相机扩展、VGGT与神经辐射场的在线协同蒸馏、以及面向AR眼镜的轻量化部署。
相关研究

1) GeoNeRF: Geometry-Aware Neural Radiance Fields for Monocular 3D Reconstruction (CVPR 2023); 2) MonoSDF: Monocular 3D Reconstruction with Signed Distance Functions (ICCV 2023); 3) G-NeRF: Geometric Neural Radiance Fields for Multi-View Stereo (ECCV 2024); 4) SLAM-GM: Geometric Foundation Models for Visual SLAM (CoRL 2023 Workshop); 5) VoxelHashing++: Adaptive Voxel Grids for Real-Time Dense SLAM (RSS 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问