MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM

2025年09月25日
  • 简介
    视觉SLAM是机器人、自动驾驶和扩展现实(XR)领域的核心技术,然而传统系统在低纹理环境、尺度模糊以及恶劣视觉条件下常面临性能下降的问题。近年来,基于前馈神经网络的点云图回归技术展现出直接从图像中恢复高保真度三维场景几何结构的潜力,通过利用学习到的空间先验知识,克服了传统多视图几何方法的局限性。然而,这些方法往往忽略了经过广泛验证的、基于概率模型的多传感器信息融合所带来的优势。本文提出MASt3R-Fusion,一种多传感器辅助的视觉SLAM框架,将前馈式点云图回归与包括惯性测量和GNSS数据在内的多源传感器信息进行紧密融合。该系统引入了基于Sim(3)的视觉对齐约束(以Hessian形式表达),将其嵌入统一的、具有度量尺度的SE(3)因子图中,以实现高效的信息融合。我们设计了一种分层式因子图结构,既支持实时滑动窗口优化,又能进行包含激进回环检测的全局优化,从而实现高精度的实时位姿跟踪、带度量尺度的结构感知以及全局一致的建图。我们在公开基准数据集和自采集数据集上对所提方法进行了评估,结果表明,相较于现有的以视觉为核心的多传感器SLAM系统,本方法在精度和鲁棒性方面均有显著提升。代码将开源发布,以支持研究可复现性和进一步探索(https://github.com/GREAT-WHU/MASt3R-Fusion)。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决传统视觉SLAM在低纹理环境、尺度模糊以及恶劣视觉条件下性能下降的问题,同时现有基于神经网络的点云回归方法往往忽略了多传感器数据融合的优势。这是一个具有现实意义的问题,尤其是在自动驾驶和XR应用中,但并非全新问题,而是对现有挑战的深化与整合。
  • 关键思路
    提出MASt3R-Fusion,将前馈神经网络生成的点云回归结果与IMU、GNSS等多传感器信息在统一的SE(3)因子图中进行紧耦合融合,并引入Sim(3)视觉对齐约束(以Hessian形式),实现度量尺度下的全局一致建图。其创新在于结合学习型几何先验与经典概率滤波框架,兼顾高保真结构恢复与鲁棒状态估计。
  • 其它亮点
    系统采用分层因子图设计,支持实时滑窗优化与激进闭环的全局优化;在公开和自采集数据集上验证了精度与鲁棒性的显著提升;代码已开源(https://github.com/GREAT-WHU/MASt3R-Fusion),增强了可复现性;值得进一步探索的方向包括动态场景适应、更广泛的传感器兼容性以及神经先验的在线微调。
  • 相关研究
    1. Visual-Inertial-LiDAR SLAM with Online Extrinsic Calibration 2. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM 3. DeepSFM: Structure-from-Motion via Deep Bundle Adjustment 4. Neural Scene Flow Fields for Dynamic Scenes 5. GS-INS: Gaussian Splatting-based Inertial Navigation System
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问