VGGT-SLAM 2.0: Real-time Dense Feed-forward Scene Reconstruction

向作者提问

NEW

简介

我们提出了VGGT-SLAM 2.0——一种面向实时RGB图像的前馈式SLAM系统，该系统在VGGT-SLAM基础上实现了显著改进，可高效、增量地对齐由VGGT生成的子地图。首先，我们通过设计一种全新的因子图结构，在保留VGGT在相机内参未知条件下固有重建歧义性建模能力的同时，彻底消除了VGGT-SLAM中存在的高维（15自由度）位姿漂移以及平面退化问题。其次，通过对VGGT注意力层的深入分析，我们发现其中某一层天然具备辅助图像检索验证的能力，且无需额外训练即可直接使用；这一特性不仅有助于剔除误匹配（假阳性），还能显著提升闭环检测的完成率。最后，我们开展了一系列综合实验：一方面验证了VGGT-SLAM 2.0可便捷拓展至开放集目标检测任务；另一方面证实其可在搭载Jetson Thor嵌入式平台的地面机器人上实现在线实时运行。实验场景涵盖杂乱的室内公寓与办公环境，乃至面积达4200平方英尺（约390平方米）的大型谷仓；此外，在TUM数据集上的定量评估表明，VGGT-SLAM 2.0取得了当前最优的定位精度，其位姿误差较VGGT-SLAM降低了约23%。本工作的源代码将在论文正式发表后开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决基于VGGT（视觉几何Transformer）的RGB-only SLAM系统中存在的高维位姿漂移（15-DOF）、平面退化、重建模糊性（尤其在未知相机内参下）以及回环检测误匹配率高、闭环完成率低等问题；该问题属于SLAM与基础视觉表征联合优化的新交叉方向，非纯传统几何SLAM亦非纯学习型SLAM，具有新颖性。
关键思路

1）设计新型轻量因子图，显式解耦并消除15-DOF漂移与平面退化，同时通过几何约束正则化处理VGGT固有的尺度/反射/旋转模糊性；2）首次发现并利用VGGT中某预训练注意力层（无需微调）的语义-几何一致性特征，直接用于图像检索置信度校验，实现零成本回环验证；3）端到端feed-forward架构保障实时性，摒弃迭代优化与后端BA。
其它亮点

在TUM RGB-D数据集上姿态误差降低23%；实测达32 FPS onboard Jetson Thor；支持开集物体检测迁移（仅微调检测头）；实验覆盖复杂室内公寓、办公室及4200 sq ft barn等多尺度真实场景；代码将开源；值得关注的延伸方向：注意力层可解释性驱动的SLAM可信度建模、VGGT内在几何先验的理论刻画、无标定在线内参自校准。
相关研究

VGGT-SLAM (ICRA 2023); DROID-SLAM (NeurIPS 2022); Co-SLAM (CVPR 2023); NeuralRecon (ICCV 2021); BAD-SLAM (ICRA 2020); Map-SLAM (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问