- 简介Transformer 已成为深度学习领域的通用基础架构,然而三维场景理解仍主要依赖于带有强领域先验的专用骨干网络。这使得该领域与更广阔的 Transformer 生态系统相隔离,既阻碍了前沿技术成果的有效迁移,也难以充分利用日益优化的软硬件栈所带来的性能提升。为弥合这一鸿沟,我们对标准 Transformer 编码器进行了轻量级改造,使其适配三维场景。具体而言,给定一个输入的三维场景,我们首先将其划分为体素化(volumetric)的图像块(patch)标记(token),随后通过全局自注意力机制对其进行处理,并借助一种扩展至三维空间的旋转位置编码(rotary positional embedding)注入位置信息。我们将由此构建的模型命名为“体素 Transformer”(Volume Transformer,简称 Volt),并将其应用于三维语义分割任务。然而,若直接在标准三维基准数据集上训练 Volt,模型会陷入捷径学习(shortcut learning),凸显出当前三维监督信号规模严重不足的问题。为此,我们提出了一种高效的数据驱动训练策略:结合强三维数据增强、正则化技术,以及来自卷积教师模型(convolutional teacher)的知识蒸馏。该策略显著提升了 Volt 的性能,使其可与当前最优方法相媲美。进一步地,我们通过在多个数据集上联合训练以扩大监督规模,结果表明:Volt 相比各类专为三维设计的骨干网络,更能从更大规模的监督数据中获益,在室内与室外多种三维数据集上均达到当前最优性能。最后,当 Volt 作为即插即用(drop-in)骨干网络嵌入标准的三维实例分割流程时,同样刷新了该任务的性能纪录。这一系列结果充分表明,Volt 是一种简洁、可扩展、通用性强的三维场景理解骨干网络。
-
- 图表
- 解决问题3D场景理解长期依赖手工设计的专用骨干网络(如Sparse CNN、Point-based MLP),与主流Transformer架构脱节,导致无法受益于Transformer生态在算法、软件(如FlashAttention)和硬件(如GPU/TPU优化)上的快速进展;同时,现有3D监督数据规模小、标注成本高,直接应用标准Transformer易导致shortcut learning(捷径学习),泛化能力差。
- 关键思路提出Volume Transformer(Volt)——首个极简适配3D体素空间的纯Transformer编码器:将3D场景划分为规则体素块(volumetric patches)作为token,采用全连接全局自注意力(无稀疏性假设),并引入三维扩展的RoPE(rotary positional embedding)编码空间位置;不引入卷积先验、几何归纳偏置或稀疏性约束,坚持‘vanilla Transformer in 3D’哲学。
- 其它亮点1) 首次系统揭示标准3D基准(如S3DIS、ScanNet)上纯Transformer易过拟合/shortcut learning,归因于监督信号稀缺;2) 提出高效训练范式:强3D对称/弹性形变增强 + token-level dropout + 从ConvNet教师(如MinkUNet)蒸馏logits与attention map;3) 首次实现跨域联合扩展训练(ScanNet+S3DIS+SemanticKITTI),验证Volt随数据规模增长的优越可扩展性;4) 在3D语义分割(SOTA mIoU)和实例分割(Mask3D pipeline中SOTA AP50)均刷新纪录;5) 代码已开源(https://github.com/volta-transformer/volt),支持PyTorch+Open3D,模块化设计便于即插即用。
- 1) 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' (ViT, 2020); 2) 'Minkowski Engine: Learning in Implicit High-Dimensional Spaces' (Choy et al., 2019); 3) 'Point-BERT: Pre-training 3D Point Cloud Transformers' (Yu et al., CVPR 2022); 4) 'Mask3D: Panoptic Segmentation of 3D Scenes' (Liu et al., ICCV 2023); 5) 'ROPE: Rotary Position Embedding' (Su et al., 2021)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流