FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation

2024年06月11日
  • 简介
    音频分类模型,特别是音频频谱变换器(AST),在高效音频分析中发挥着关键作用。然而,在不影响准确性的前提下优化其效率仍然是一个挑战。在本文中,我们介绍了FastAST,这是一个将Token Merging(ToMe)集成到AST框架中的框架。FastAST通过合并音频频谱中相似的标记来提高推理速度,而无需进行大量的重新训练。此外,在训练过程中,FastAST带来了显著的速度提升。实验表明,FastAST可以在最小影响准确性的情况下增加音频分类吞吐量。为了减少准确性的影响,我们将交叉模型知识蒸馏(CMKD)集成到FastAST框架中。将ToMe和CMKD集成到AST中,可以提高准确性,同时保持更快的推理速度。FastAST代表了向实时、资源高效的音频分析迈出的一步。
  • 图表
  • 解决问题
    本文旨在提高音频分类模型的效率,同时保持准确性。具体而言,通过将相似的标记合并,将Token Merging(ToMe)集成到AST框架中,从而提高推理速度。
  • 关键思路
    FastAST框架将ToMe和交叉模型知识蒸馏(CMKD)集成到AST中,以提高音频分类的吞吐量,同时保持准确性。
  • 其它亮点
    FastAST框架提高了音频分类的推理速度,同时保持了准确性。作者在多个数据集上进行了实验,并展示了FastAST的有效性。此外,作者还提供了开源代码,以便其他研究人员使用和改进。
  • 相关研究
    最近在音频分类领域中,也有一些其他相关研究。例如,基于卷积神经网络的音频分类模型,以及使用注意力机制的音频分类模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论