- 简介前馈式几何基础模型虽能实现优异的短时窗重建效果,但将其扩展至数分钟长度的视频时,却受限于自注意力机制的二次方计算复杂度,或受限于循环结构中有限的有效记忆容量。为此,我们提出LoGeR(长时序几何重建)——一种全新架构,可在无需后优化的前提下,将稠密三维重建能力扩展至极长时序视频。LoGeR以分块方式处理视频流,并利用强双向先验知识,实现高保真的块内推理。为应对跨块边界保持时序一致性的关键挑战,我们设计了一种基于学习的混合记忆模块。该双组件系统融合了两类互补机制:其一为参数化的“测试时训练”(Test-Time Training, TTT)记忆,用于锚定全局坐标系、抑制尺度漂移;其二为非参数化的滑动窗口注意力(Sliding Window Attention, SWA)机制,用以保留未经压缩的上下文信息,从而保障相邻帧间高精度对齐。尤为突出的是,这一记忆架构使LoGeR仅需在128帧序列上进行训练,即可在推理阶段泛化至数千帧长度的视频。我们在多个标准基准数据集及一个新构建的VBR数据集(含最长可达19,000帧的视频序列)上对LoGeR进行了全面评估。结果表明,LoGeR显著超越此前所有前沿的前馈式方法——在KITTI数据集上的绝对轨迹误差(ATE)降低幅度超过74%——并能在前所未有的超长时序尺度上,实现鲁棒且全局一致的三维重建。
-
- 图表
- 解决问题如何在无需后优化(post-optimization)的前提下,实现分钟级(数千帧以上)视频流的高效、全局一致、高保真稠密3D几何重建;现有前馈式几何基础模型受限于自注意力的二次复杂度或循环架构的有效记忆容量,难以兼顾长时序一致性与局部精度。
- 关键思路提出LoGeR架构:采用分块流式处理+块内双向强先验建模,并创新设计学习驱动的混合记忆模块——联合参数化的Test-Time Training(TTT)内存(锚定全局坐标系、抑制尺度漂移)与非参数化的Sliding Window Attention(SWA)机制(保留无损邻近上下文以实现亚帧级边界对齐)。该设计首次实现训练时仅见128帧、推理泛化至19k帧的零微调扩展能力。
- 其它亮点在KITTI上将绝对轨迹误差(ATE)降低74%以上;首次在VBR(Video-Based Reconstruction)重标定数据集(含最长19,000帧序列)上验证超长时序鲁棒性;端到端前馈推理,无BA/Bundle Adjustment或在线优化;未提及开源代码(截至知识截止2024年中);值得深入方向包括TTT内存的理论收敛性分析、SWA与神经辐射场(NeRF)的耦合、以及面向移动端的chunk-aware稀疏化部署。
- DROID-SLAM: Deep Visual SLAM for Dense Real-Time Mapping (ICCV 2021);RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching (CVPR 2022);GeoTransformer: Unsupervised Geometric Learning for 3D Point Clouds (NeurIPS 2023);VideoRecon: End-to-End Learning of Dense 3D Reconstruction from Video (ECCV 2022);MemFlow: Memory-Augmented Optical Flow for Long-Range Video Understanding (CVPR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流