SPMamba: State-space model is all you need in speech separation

2024年04月02日
  • 简介
    在语音分离领域,CNN和Transformer模型都表现出了强大的分离能力,引起了研究界的广泛关注。然而,基于CNN的方法对于长序列音频的建模能力有限,导致分离性能不佳。相反,基于Transformer的方法由于计算复杂度高,在实际应用中受到限制。值得注意的是,在计算机视觉领域,基于Mamba的方法因其强大的性能和较低的计算需求而备受赞誉。本文提出了一种使用状态空间模型的语音分离网络架构,即SPMamba。我们采用TF-GridNet模型作为基础框架,并用双向Mamba模块替换其Transformer组件,旨在捕获更广泛的上下文信息。我们的实验结果揭示了基于Mamba的模型在性能方面的重要作用。SPMamba在Librispeech数据集上表现出卓越的性能,与现有分离模型相比具有显著优势。值得注意的是,SPMamba在分离质量方面取得了实质性的改进,与TF-GridNet相比,SI-SNRi提高了2.42 dB。SPMamba的源代码可在https://github.com/JusperLee/SPMamba上公开获取。
  • 图表
  • 解决问题
    提出了一种名为SPMamba的语音分离网络架构,旨在解决CNN和Transformer在长序列音频建模和计算复杂度方面的限制。
  • 关键思路
    SPMamba采用基于状态空间模型的方法,使用双向Mamba模块代替TF-GridNet模型中的Transformer组件,以捕获更广泛的上下文信息,从而实现更优异的语音分离性能。
  • 其它亮点
    SPMamba在Librispeech数据集上实现了显著的性能提升,相比TF-GridNet模型,SI-SNRi提高了2.42 dB。论文提供了开源代码。
  • 相关研究
    与当前研究方向相关的其他研究包括:CNN和Transformer在语音分离中的应用,基于Mamba的计算模型在计算机视觉领域的应用等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论