VGGT-SLAM 2.0: Real-time Dense Feed-forward Scene Reconstruction

2026年01月27日
  • 简介
    我们提出了VGGT-SLAM 2.0——一种面向实时RGB图像的前馈式SLAM系统,该系统在VGGT-SLAM基础上实现了显著改进,可高效、增量地对齐由VGGT生成的子地图。首先,我们通过设计一种全新的因子图结构,在保留VGGT在相机内参未知条件下固有重建歧义性建模能力的同时,彻底消除了VGGT-SLAM中存在的高维(15自由度)位姿漂移以及平面退化问题。其次,通过对VGGT注意力层的深入分析,我们发现其中某一层天然具备辅助图像检索验证的能力,且无需额外训练即可直接使用;这一特性不仅有助于剔除误匹配(假阳性),还能显著提升闭环检测的完成率。最后,我们开展了一系列综合实验:一方面验证了VGGT-SLAM 2.0可便捷拓展至开放集目标检测任务;另一方面证实其可在搭载Jetson Thor嵌入式平台的地面机器人上实现在线实时运行。实验场景涵盖杂乱的室内公寓与办公环境,乃至面积达4200平方英尺(约390平方米)的大型谷仓;此外,在TUM数据集上的定量评估表明,VGGT-SLAM 2.0取得了当前最优的定位精度,其位姿误差较VGGT-SLAM降低了约23%。本工作的源代码将在论文正式发表后开源。
  • 作者讲解
  • 图表
  • 解决问题
    解决基于VGGT(视觉几何Transformer)的RGB-only SLAM系统中存在的高维位姿漂移(15-DOF)、平面退化、重建模糊性(尤其在未知相机内参下)以及回环检测误匹配率高、闭环完成率低等问题;该问题属于SLAM与基础视觉表征联合优化的新交叉方向,非纯传统几何SLAM亦非纯学习型SLAM,具有新颖性。
  • 关键思路
    1)设计新型轻量因子图,显式解耦并消除15-DOF漂移与平面退化,同时通过几何约束正则化处理VGGT固有的尺度/反射/旋转模糊性;2)首次发现并利用VGGT中某预训练注意力层(无需微调)的语义-几何一致性特征,直接用于图像检索置信度校验,实现零成本回环验证;3)端到端feed-forward架构保障实时性,摒弃迭代优化与后端BA。
  • 其它亮点
    在TUM RGB-D数据集上姿态误差降低23%;实测达32 FPS onboard Jetson Thor;支持开集物体检测迁移(仅微调检测头);实验覆盖复杂室内公寓、办公室及4200 sq ft barn等多尺度真实场景;代码将开源;值得关注的延伸方向:注意力层可解释性驱动的SLAM可信度建模、VGGT内在几何先验的理论刻画、无标定在线内参自校准。
  • 相关研究
    VGGT-SLAM (ICRA 2023); DROID-SLAM (NeurIPS 2022); Co-SLAM (CVPR 2023); NeuralRecon (ICCV 2021); BAD-SLAM (ICRA 2020); Map-SLAM (ECCV 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问