Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding

向作者提问

NEW

简介

Transformer 已成为深度学习领域的通用基础架构，然而三维场景理解仍主要依赖于带有强领域先验的专用骨干网络。这使得该领域与更广阔的 Transformer 生态系统相隔离，既阻碍了前沿技术成果的有效迁移，也难以充分利用日益优化的软硬件栈所带来的性能提升。为弥合这一鸿沟，我们对标准 Transformer 编码器进行了轻量级改造，使其适配三维场景。具体而言，给定一个输入的三维场景，我们首先将其划分为体素化（volumetric）的图像块（patch）标记（token），随后通过全局自注意力机制对其进行处理，并借助一种扩展至三维空间的旋转位置编码（rotary positional embedding）注入位置信息。我们将由此构建的模型命名为“体素 Transformer”（Volume Transformer，简称 Volt），并将其应用于三维语义分割任务。然而，若直接在标准三维基准数据集上训练 Volt，模型会陷入捷径学习（shortcut learning），凸显出当前三维监督信号规模严重不足的问题。为此，我们提出了一种高效的数据驱动训练策略：结合强三维数据增强、正则化技术，以及来自卷积教师模型（convolutional teacher）的知识蒸馏。该策略显著提升了 Volt 的性能，使其可与当前最优方法相媲美。进一步地，我们通过在多个数据集上联合训练以扩大监督规模，结果表明：Volt 相比各类专为三维设计的骨干网络，更能从更大规模的监督数据中获益，在室内与室外多种三维数据集上均达到当前最优性能。最后，当 Volt 作为即插即用（drop-in）骨干网络嵌入标准的三维实例分割流程时，同样刷新了该任务的性能纪录。这一系列结果充分表明，Volt 是一种简洁、可扩展、通用性强的三维场景理解骨干网络。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

3D场景理解长期依赖手工设计的专用骨干网络（如Sparse CNN、Point-based MLP），与主流Transformer架构脱节，导致无法受益于Transformer生态在算法、软件（如FlashAttention）和硬件（如GPU/TPU优化）上的快速进展；同时，现有3D监督数据规模小、标注成本高，直接应用标准Transformer易导致shortcut learning（捷径学习），泛化能力差。
关键思路

提出Volume Transformer（Volt）——首个极简适配3D体素空间的纯Transformer编码器：将3D场景划分为规则体素块（volumetric patches）作为token，采用全连接全局自注意力（无稀疏性假设），并引入三维扩展的RoPE（rotary positional embedding）编码空间位置；不引入卷积先验、几何归纳偏置或稀疏性约束，坚持‘vanilla Transformer in 3D’哲学。
其它亮点

1) 首次系统揭示标准3D基准（如S3DIS、ScanNet）上纯Transformer易过拟合/shortcut learning，归因于监督信号稀缺；2) 提出高效训练范式：强3D对称/弹性形变增强 + token-level dropout + 从ConvNet教师（如MinkUNet）蒸馏logits与attention map；3) 首次实现跨域联合扩展训练（ScanNet+S3DIS+SemanticKITTI），验证Volt随数据规模增长的优越可扩展性；4) 在3D语义分割（SOTA mIoU）和实例分割（Mask3D pipeline中SOTA AP50）均刷新纪录；5) 代码已开源（https://github.com/volta-transformer/volt），支持PyTorch+Open3D，模块化设计便于即插即用。
相关研究

1) 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' (ViT, 2020); 2) 'Minkowski Engine: Learning in Implicit High-Dimensional Spaces' (Choy et al., 2019); 3) 'Point-BERT: Pre-training 3D Point Cloud Transformers' (Yu et al., CVPR 2022); 4) 'Mask3D: Panoptic Segmentation of 3D Scenes' (Liu et al., ICCV 2023); 5) 'ROPE: Rotary Position Embedding' (Su et al., 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问