- 简介音频分类模型,特别是音频频谱变换器(AST),在高效音频分析中发挥着关键作用。然而,在不影响准确性的前提下优化其效率仍然是一个挑战。在本文中,我们介绍了FastAST,这是一个将Token Merging(ToMe)集成到AST框架中的框架。FastAST通过合并音频频谱中相似的标记来提高推理速度,而无需进行大量的重新训练。此外,在训练过程中,FastAST带来了显著的速度提升。实验表明,FastAST可以在最小影响准确性的情况下增加音频分类吞吐量。为了减少准确性的影响,我们将交叉模型知识蒸馏(CMKD)集成到FastAST框架中。将ToMe和CMKD集成到AST中,可以提高准确性,同时保持更快的推理速度。FastAST代表了向实时、资源高效的音频分析迈出的一步。
- 图表
- 解决问题本文旨在提高音频分类模型的效率,同时保持准确性。具体而言,通过将相似的标记合并,将Token Merging(ToMe)集成到AST框架中,从而提高推理速度。
- 关键思路FastAST框架将ToMe和交叉模型知识蒸馏(CMKD)集成到AST中,以提高音频分类的吞吐量,同时保持准确性。
- 其它亮点FastAST框架提高了音频分类的推理速度,同时保持了准确性。作者在多个数据集上进行了实验,并展示了FastAST的有效性。此外,作者还提供了开源代码,以便其他研究人员使用和改进。
- 最近在音频分类领域中,也有一些其他相关研究。例如,基于卷积神经网络的音频分类模型,以及使用注意力机制的音频分类模型。
沙发等你来抢
去评论
评论
沙发等你来抢