FastVGGT: Training-Free Acceleration of Visual Geometry Transformer

2025年09月02日
  • 简介
    最近,用于3D视觉的基座模型在3D感知方面展现了出色的能力。然而,由于推理时效率低下,将这些模型扩展到长序列图像输入仍然面临重大挑战。本研究中,我们对VGGT这一当前最先进的前馈视觉几何模型进行了详细分析,并找出了其主要的性能瓶颈。可视化分析进一步揭示了注意力图中存在“token collapse”(标记坍缩)现象。受这些发现的启发,我们探索了在前馈视觉几何模型中使用token合并的潜力。由于3D模型具有独特的架构和任务特性,直接应用现有的合并技术存在困难。为此,我们提出了FastVGGT,这是首个在3D领域中利用token合并、并通过一种无需训练的机制来加速VGGT的方法。我们设计了一种针对3D架构和任务特点的独特的token划分策略,有效消除了冗余计算,同时保留了VGGT强大的重建能力。在多个3D几何基准上的广泛实验验证了我们方法的有效性。值得注意的是,在输入1000张图像的情况下,FastVGGT相比VGGT实现了4倍的加速,同时缓解了长序列场景中的误差累积问题。这些发现表明,token合并作为一种有理论依据的方法,具有推动可扩展3D视觉系统的潜力。代码地址:https://mystorm16.github.io/fastvggt/。
  • 图表
  • 解决问题
    论文旨在解决3D视觉基础模型在处理长序列图像输入时推理效率低下的问题,尤其是在VGGT模型中观察到的计算瓶颈和注意力图中的token collapse现象。这个问题在当前的3D视觉领域是一个重要的新挑战。
  • 关键思路
    论文提出了一种基于token merging的训练-free加速机制,即FastVGGT,以解决VGGT在处理长序列输入时的效率问题。通过为3D架构和任务定制的token partitioning策略,论文首次将token merging技术应用于3D视觉领域,从而在不牺牲重建能力的前提下提升推理速度。
  • 其它亮点
    1. FastVGGT在处理1000张输入图像时实现了4倍的加速,并有效缓解了长序列输入下的误差累积问题。 2. 实验在多个3D几何基准数据集上进行,验证了方法的有效性。 3. 论文开源了代码,便于复现和进一步研究。 4. 为3D视觉系统提供了一种可扩展的、基于token merging的解决方案。
  • 相关研究
    1. “Vision Transformers: State-of-the-Art Performance with Reduced Computational Cost” 2. “Efficient Attention Mechanisms for Vision Transformers” 3. “Token Fusion: A New Approach for Accelerating Transformer Inference” 4. “3D Reconstruction with Deep Learning: A Survey” 5. “Scalable Vision Models for Long-Sequence Image Analysis”
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论