SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model

2024年05月20日
  • 简介
    Transformer模型因其强大的建模能力而在各种任务中革命性地改变了深度学习,包括音频表示学习。然而,它们通常在GPU内存使用和计算推断时间方面都受到二次复杂度的影响,影响了它们的效率。最近,像Mamba这样的状态空间模型(SSMs)已经成为一种有前途的替代方案,通过避免这些复杂性提供了一种更有效的方法。鉴于这些优势,我们探索了SSM-based模型在音频任务中的潜力。在本文中,我们介绍了Self-Supervised Audio Mamba(SSAMBA),这是第一个用于音频表示学习的自监督、无注意力和基于SSM的模型。SSAMBA利用双向Mamba有效地捕获复杂的音频模式。我们结合了自监督预训练框架,优化了判别和生成目标,使模型能够从大规模的未标记数据集中学习强大的音频表示。我们在各种任务中评估了SSAMBA,如音频分类、关键词检测和说话人识别。我们的结果表明,在大多数任务中,SSAMBA优于Self-Supervised Audio Spectrogram Transformer(SSAST)。值得注意的是,对于输入令牌大小为22k的微小模型尺寸,SSAMBA的批处理推断速度约快92.7%,内存效率提高了95.4%,这些效率提高与卓越的性能相结合,强调了SSAMBA的架构创新的有效性,使其成为广泛的音频处理应用的一个引人注目的选择。
  • 图表
  • 解决问题
    本论文旨在探索使用基于状态空间模型(SSM)的Self-Supervised Audio Mamba(SSAMBA)模型进行音频表示学习的潜力,以解决Transformers在GPU内存使用和计算推理时间上的效率问题。
  • 关键思路
    该论文提出了一种新型的基于SSM的音频表示学习模型SSAMBA,利用双向Mamba捕捉复杂的音频模式。通过自监督预训练框架优化判别性和生成性目标,使模型能够从大规模无标签数据集中学习到鲁棒的音频表示。
  • 其它亮点
    本论文提出的SSAMBA模型是第一个自监督、无注意力、基于SSM的音频表示学习模型。在各种任务(如音频分类、关键词识别和说话人识别)中,SSAMBA的表现优于Self-Supervised Audio Spectrogram Transformer(SSAST)。此外,SSAMBA在批量推理速度上比SSAST快92.7%,内存使用效率高达95.4%,这些效率提升以及卓越的性能使得SSAMBA成为广泛应用于各种音频处理应用的有力选择。
  • 相关研究
    最近的相关研究包括使用SSM进行音频处理的研究,以及使用Transformers进行音频表示学习的研究。其中,与本论文最相关的研究是Self-Supervised Audio Spectrogram Transformer(SSAST)模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论