Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations

2024年06月04日
  • 简介
    尽管Transformer已被广泛采用作为主要的神经架构,但它也激发了几个独立的研究方向来解决其局限性。其中一种方法是选择性状态空间模型,已经展示了在语言建模方面有很好的效果。然而,它们在学习自监督通用音频表示方面的可行性尚未得到研究。这项工作提出了Audio Mamba,一种选择性状态空间模型,通过自我监督从随机掩码的频谱图块中学习通用音频表示。在十个不同的音频识别下游任务上的实证结果表明,该模型在AudioSet数据集上预训练后,始终比相似的自我监督音频频谱变换器(SSAST)基线表现更好,并在数据集大小、序列长度和模型大小比较方面表现更佳。
  • 图表
  • 解决问题
    论文旨在通过自监督学习从随机掩码频谱图块中学习通用音频表示,解决语言建模的限制。这是否是一个新问题?
  • 关键思路
    论文提出了一种选择性状态空间模型(Audio Mamba),通过自监督学习从随机掩码频谱图块中学习通用音频表示。相比当前领域的研究,这篇论文的关键思路是选择性地对输入进行建模,以提高音频表示的效率和准确性。
  • 其它亮点
    论文使用了AudioSet数据集进行预训练,并在十个不同的音频识别下游任务中进行了测试。结果表明,Audio Mamba模型在数据集大小、序列长度和模型大小等方面都表现出比可比的自监督音频频谱变换器(SSAST)基线更好的性能,并且在多个任务中都取得了最新的最佳结果。
  • 相关研究
    与本文相关的研究包括:1)使用Transformer的自监督音频表示学习;2)使用选择性状态空间模型进行语言建模;3)使用自监督学习进行视觉和语言表示学习。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论