Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing

简介

最近，由于3D Transformer的发展，点云处理和分析取得了巨大进展。然而，现有的3D Transformer方法通常由于其巨大且冗余的注意力图而计算成本高且效率低下。由于需要耗时的点云采样和分组过程，它们也往往速度较慢。为了解决这些问题，我们提出了一种高效的点云表示和处理模型——Dynamic Token Aggregating(DTA-Former)。首先，我们提出了一种高效的可学习Token Sparsification(LTS)块，它考虑了本地和全局语义信息，以自适应选择关键Token。其次，为了实现对稀疏Token的特征聚合，我们在3D Transformer范式中提出了第一个Dynamic Token Aggregating(DTA)块，为我们的模型提供了强大的聚合特征，同时防止信息丢失。在此之后，我们使用基于双注意力的Transformer全局特征增强(GFE)块来提高模型的表示能力。配备了LTS、DTA和GFE块，DTA-Former通过分层特征学习实现了出色的分类结果。最后，我们引入了一种新颖的迭代Token重建(ITR)块，用于密集预测，其中Token的语义特征和它们的语义关系在迭代重建过程中逐渐优化。基于ITR，我们提出了一种新的W-net架构，它比常见的U-net设计更适合基于Transformer的特征学习。广泛的实验证明了我们方法的优越性。它在ModelNet40、ShapeNet和航空多光谱LiDAR(MS-LiDAR)数据集上，比先前的点Transformer快30倍，并实现了SOTA性能。

图表

解决问题

提高点云处理和分析效率，解决3D Transformer方法计算量大、效率低下的问题。

关键思路

提出了一种高效的点云Transformer方法DTA-Former，包括Learnable Token Sparsification (LTS) block、Dynamic Token Aggregating (DTA) block、Transformer-based Global Feature Enhancement (GFE) block和Iterative Token Reconstruction (ITR) block。

其它亮点

DTA-Former通过LTS、DTA、GFE和ITR等模块，实现了点云的高效表示和处理，实验结果表明其在ModelNet40、ShapeNet和MS-LiDAR数据集上的性能优于现有方法，且速度最高可达现有点云Transformer方法的30倍。

Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing

评论