- 简介从视频中感知和重建四维时空几何结构是一项基础而具有挑战性的计算机视觉任务。为了支持交互式和实时应用,我们提出了一种流式四维视觉几何变换模型(streaming 4D visual geometry transformer),其设计理念与自回归的大语言模型相似。我们探索了一种简单且高效的设计,采用因果变换架构(causal transformer)以在线方式处理输入序列。通过使用时间因果注意力机制,并将历史的键(keys)和值(values)缓存为隐式记忆,我们的方法能够高效地实现长期四维重建。该设计在逐步融合历史信息的同时,保持了高质量的空间一致性,从而实现实时的四维重建。为了提高训练效率,我们提出从全连接的双向视觉几何基础变换模型(VGGT)中对学生模型(即我们的因果模型)进行知识蒸馏。在推理阶段,我们的模型支持借鉴大语言模型领域中优化后的高效注意力算子(例如 FlashAttention)。在多个四维几何感知基准上的广泛实验表明,我们的模型在在线场景下提升了推理速度,同时保持了有竞争力的性能,为构建可扩展和交互式的四维视觉系统铺平了道路。代码地址:https://github.com/wzzheng/StreamVGGT。
-
- 图表
- 解决问题论文试图解决从视频中实时感知和重建4D时空几何结构的问题,这是一个基础但具有挑战性的计算机视觉任务。目标是为交互式和实时应用提供高效的解决方案。
- 关键思路作者提出了一种流式的4D视觉几何Transformer架构,借鉴了自回归大语言模型的设计理念,采用因果Transformer结构实现在线处理输入序列。通过时间因果注意力机制以及缓存历史键值作为隐式记忆,实现了高效的长时程4D重建。
- 其它亮点1. 设计了一个简单且高效的因果Transformer模型,支持实时4D重建并保持高质量的空间一致性。 2. 提出了一种知识蒸馏策略,利用双向视觉几何Transformer(VGGT)的密集预测能力来优化因果模型。 3. 推理过程中可以迁移高效注意力算子(如FlashAttention),进一步提升推理速度。 4. 在多个4D几何感知基准上进行了广泛实验,验证了方法的有效性与效率。 5. 开源代码促进了后续研究和实际应用的落地。
- 1. Neural Radiance Fields (NeRF) for 3D scene reconstruction 2. Dynamic Scene Reconstruction using Spatiotemporal Neural Rendering 3. Transformer-based models for video understanding and 3D reconstruction 4. Efficient Attention Mechanisms in Large Language Models (e.g., FlashAttention) 5. Streaming and Online Learning Approaches for Real-time Vision Tasks
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流