- 简介最近,由于3D Transformer的发展,点云处理和分析取得了巨大进展。然而,现有的3D Transformer方法通常由于其巨大且冗余的注意力图而计算成本高且效率低下。由于需要耗时的点云采样和分组过程,它们也往往速度较慢。为了解决这些问题,我们提出了一种高效的点云表示和处理模型——Dynamic Token Aggregating(DTA-Former)。首先,我们提出了一种高效的可学习Token Sparsification(LTS)块,它考虑了本地和全局语义信息,以自适应选择关键Token。其次,为了实现对稀疏Token的特征聚合,我们在3D Transformer范式中提出了第一个Dynamic Token Aggregating(DTA)块,为我们的模型提供了强大的聚合特征,同时防止信息丢失。在此之后,我们使用基于双注意力的Transformer全局特征增强(GFE)块来提高模型的表示能力。配备了LTS、DTA和GFE块,DTA-Former通过分层特征学习实现了出色的分类结果。最后,我们引入了一种新颖的迭代Token重建(ITR)块,用于密集预测,其中Token的语义特征和它们的语义关系在迭代重建过程中逐渐优化。基于ITR,我们提出了一种新的W-net架构,它比常见的U-net设计更适合基于Transformer的特征学习。广泛的实验证明了我们方法的优越性。它在ModelNet40、ShapeNet和航空多光谱LiDAR(MS-LiDAR)数据集上,比先前的点Transformer快30倍,并实现了SOTA性能。
- 图表
- 解决问题提高点云处理和分析效率,解决3D Transformer方法计算量大、效率低下的问题。
- 关键思路提出了一种高效的点云Transformer方法DTA-Former,包括Learnable Token Sparsification (LTS) block、Dynamic Token Aggregating (DTA) block、Transformer-based Global Feature Enhancement (GFE) block和Iterative Token Reconstruction (ITR) block。
- 其它亮点DTA-Former通过LTS、DTA、GFE和ITR等模块,实现了点云的高效表示和处理,实验结果表明其在ModelNet40、ShapeNet和MS-LiDAR数据集上的性能优于现有方法,且速度最高可达现有点云Transformer方法的30倍。
- 近期相关研究包括Point Transformer、KPConv、PointCNN等。
沙发等你来抢
去评论
评论
沙发等你来抢