Geometric Context Transformer for Streaming 3D Reconstruction

向作者提问

NEW

简介

实时三维重建旨在从视频流中恢复三维信息（例如相机位姿和点云），这要求模型具备几何精度高、时间一致性好以及计算效率高的特点。受同步定位与建图（SLAM）原理启发，我们提出了LingBot-Map——一种面向流式数据场景重建的前馈式三维基础模型，其核心架构为几何上下文变换器（Geometric Context Transformer, GCT）。LingBot-Map的一个关键特征在于其精心设计的注意力机制：该机制融合了锚点上下文（anchor context）、位姿参考窗口（pose-reference window）和轨迹记忆（trajectory memory）三部分，分别用于解决坐标系对齐、稠密几何线索建模以及长时程漂移校正等核心问题。这一设计在保持流式状态高度紧凑的同时，仍能保留丰富的几何上下文信息，从而实现在长达一万帧以上的序列上，对分辨率为518×378的输入稳定高效地进行推理，帧率约为20 FPS。我们在多种主流基准数据集上开展了大量实验评估，结果表明，本方法在性能上显著优于现有的各类实时流式重建方法及基于迭代优化的传统方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Streaming 3D reconstruction（流式三维重建）——即在视频流持续输入条件下，实时、准确、鲁棒地估计相机位姿并构建稠密点云，同时兼顾几何精度、时间一致性与计算效率。该问题并非全新，但现有方法（如传统SLAM或离线优化方法）难以在长序列（>10k帧）、低延迟（实时）、高保真三者间取得平衡，尤其缺乏端到端可学习的流式几何表征范式。
关键思路

提出LingBot-Map：首个面向流式重建的前馈式3D基础模型，核心是几何上下文变换器（GCT）。其创新在于三重注意力设计——锚点上下文（anchor context）实现坐标系显式接地；位姿参考窗口（pose-reference window）编码局部稠密几何约束；轨迹记忆（trajectory memory）以紧凑状态建模长期运动先验，用于在线漂移校正。区别于依赖迭代优化或RNN/LSTM状态维护的传统方法，GCT采用轻量、无循环的前馈架构，在保证几何严谨性的同时实现真正流式推理。
其它亮点

• 实现~20 FPS实时性能（518×378分辨率），支持超长序列（>10,000帧）稳定运行；• 在ScanNet、TUM RGB-D、ETH3D等主流SLAM/重建基准上全面超越SOTA流式方法（如DSO-stream、Vox-Fusion）及迭代优化方法（如iMAP、Active Neural SLAM）；• 模型完全前馈、无隐状态循环，显著降低部署复杂度与内存足迹；• 论文未明确提及开源代码，但强调模块化设计与几何可解释性，为后续轻量化部署、多传感器融合及神经辐射场（NeRF）流式集成提供清晰路径；• 值得深入：轨迹记忆的泛化性验证、跨场景几何先验迁移、与事件相机等异步传感器的协同建模。
相关研究

• 'iMAP: Implicit Mapping and Positioning in Real-Time' (ECCV 2022); • 'Active Neural SLAM' (CoRL 2020); • 'Vox-Fusion: Real-time 3D Reconstruction with Voxel-based Fusion' (ICRA 2023); • 'DSO: Direct Sparse Odometry' (TPAMI 2018); • 'NeRF-SLAM: Real-time Dense Monocular SLAM with Neural Radiance Fields' (ICCV 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问