Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing

2024年05月23日
  • 简介
    最近,由于3D Transformer的发展,点云处理和分析取得了巨大进展。然而,现有的3D Transformer方法通常由于其巨大且冗余的注意力图而计算成本高且效率低下。由于需要耗时的点云采样和分组过程,它们也往往速度较慢。为了解决这些问题,我们提出了一种高效的点云表示和处理模型——Dynamic Token Aggregating(DTA-Former)。首先,我们提出了一种高效的可学习Token Sparsification(LTS)块,它考虑了本地和全局语义信息,以自适应选择关键Token。其次,为了实现对稀疏Token的特征聚合,我们在3D Transformer范式中提出了第一个Dynamic Token Aggregating(DTA)块,为我们的模型提供了强大的聚合特征,同时防止信息丢失。在此之后,我们使用基于双注意力的Transformer全局特征增强(GFE)块来提高模型的表示能力。配备了LTS、DTA和GFE块,DTA-Former通过分层特征学习实现了出色的分类结果。最后,我们引入了一种新颖的迭代Token重建(ITR)块,用于密集预测,其中Token的语义特征和它们的语义关系在迭代重建过程中逐渐优化。基于ITR,我们提出了一种新的W-net架构,它比常见的U-net设计更适合基于Transformer的特征学习。广泛的实验证明了我们方法的优越性。它在ModelNet40、ShapeNet和航空多光谱LiDAR(MS-LiDAR)数据集上,比先前的点Transformer快30倍,并实现了SOTA性能。
  • 图表
  • 解决问题
    提高点云处理和分析效率,解决3D Transformer方法计算量大、效率低下的问题。
  • 关键思路
    提出了一种高效的点云Transformer方法DTA-Former,包括Learnable Token Sparsification (LTS) block、Dynamic Token Aggregating (DTA) block、Transformer-based Global Feature Enhancement (GFE) block和Iterative Token Reconstruction (ITR) block。
  • 其它亮点
    DTA-Former通过LTS、DTA、GFE和ITR等模块,实现了点云的高效表示和处理,实验结果表明其在ModelNet40、ShapeNet和MS-LiDAR数据集上的性能优于现有方法,且速度最高可达现有点云Transformer方法的30倍。
  • 相关研究
    近期相关研究包括Point Transformer、KPConv、PointCNN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论