LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition

2024年07月19日
  • 简介
    本文研究了基于Transformer的骨架动作识别模型的复杂性,这给计算效率和资源利用带来了显著挑战。为了在保持准确性的同时最小化资源消耗,我们探索了奇异值分解(SVD)在有效减小这些预训练模型的模型大小方面的应用。我们的方法名为LORTSAR(基于低秩Transformer的骨架动作识别),还包括微调步骤,以补偿由模型压缩可能导致的任何准确性降低。我们将该方法应用于两个领先的基于Transformer的模型“Hyperformer”和“STEP-CATFormer”。在“NTU RGB+D”和“NTU RGB+D 120”数据集上的实验结果表明,我们的方法可以显著减少模型参数数量,并在识别准确性方面几乎没有降级甚至提高。这证实了奇异值分解与后压缩微调相结合可以提高模型效率,为人类动作识别领域的更可持续、轻量级和高性能技术铺平了道路。
  • 图表
  • 解决问题
    本论文旨在解决骨架动作识别中基于Transformer模型的复杂性和资源利用问题。作者探索了奇异值分解(SVD)在减少预训练模型大小方面的应用,旨在最小化资源消耗同时保持准确性。
  • 关键思路
    本论文的关键思路是将SVD和后压缩微调相结合,以提高模型的效率。作者将其应用于两个领先的Transformer模型,即“Hyperformer”和“STEP-CATFormer”。
  • 其它亮点
    论文在“NTU RGB+D”和“NTU RGB+D 120”数据集上进行了实验,结果表明,该方法可以大大减少模型参数数量,同时在识别精度方面几乎没有降低甚至有所提高。作者还开源了代码,为更可持续、轻量级和高性能的人类动作识别技术铺平了道路。
  • 相关研究
    最近的相关研究包括:“Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning”和“Skeleton-Based Action Recognition with Directed Graph Neural Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论