FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation

简介

音频分类模型，特别是音频频谱变换器（AST），在高效音频分析中发挥着关键作用。然而，在不影响准确性的前提下优化其效率仍然是一个挑战。在本文中，我们介绍了FastAST，这是一个将Token Merging（ToMe）集成到AST框架中的框架。FastAST通过合并音频频谱中相似的标记来提高推理速度，而无需进行大量的重新训练。此外，在训练过程中，FastAST带来了显著的速度提升。实验表明，FastAST可以在最小影响准确性的情况下增加音频分类吞吐量。为了减少准确性的影响，我们将交叉模型知识蒸馏（CMKD）集成到FastAST框架中。将ToMe和CMKD集成到AST中，可以提高准确性，同时保持更快的推理速度。FastAST代表了向实时、资源高效的音频分析迈出的一步。
图表
解决问题

本文旨在提高音频分类模型的效率，同时保持准确性。具体而言，通过将相似的标记合并，将Token Merging（ToMe）集成到AST框架中，从而提高推理速度。
关键思路

FastAST框架将ToMe和交叉模型知识蒸馏（CMKD）集成到AST中，以提高音频分类的吞吐量，同时保持准确性。
其它亮点

FastAST框架提高了音频分类的推理速度，同时保持了准确性。作者在多个数据集上进行了实验，并展示了FastAST的有效性。此外，作者还提供了开源代码，以便其他研究人员使用和改进。
相关研究

最近在音频分类领域中，也有一些其他相关研究。例如，基于卷积神经网络的音频分类模型，以及使用注意力机制的音频分类模型。

FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation

评论