SPMamba: State-space model is all you need in speech separation

简介

在语音分离领域，CNN和Transformer模型都表现出了强大的分离能力，引起了研究界的广泛关注。然而，基于CNN的方法对于长序列音频的建模能力有限，导致分离性能不佳。相反，基于Transformer的方法由于计算复杂度高，在实际应用中受到限制。值得注意的是，在计算机视觉领域，基于Mamba的方法因其强大的性能和较低的计算需求而备受赞誉。本文提出了一种使用状态空间模型的语音分离网络架构，即SPMamba。我们采用TF-GridNet模型作为基础框架，并用双向Mamba模块替换其Transformer组件，旨在捕获更广泛的上下文信息。我们的实验结果揭示了基于Mamba的模型在性能方面的重要作用。SPMamba在Librispeech数据集上表现出卓越的性能，与现有分离模型相比具有显著优势。值得注意的是，SPMamba在分离质量方面取得了实质性的改进，与TF-GridNet相比，SI-SNRi提高了2.42 dB。SPMamba的源代码可在https://github.com/JusperLee/SPMamba上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出了一种名为SPMamba的语音分离网络架构，旨在解决CNN和Transformer在长序列音频建模和计算复杂度方面的限制。
关键思路

SPMamba采用基于状态空间模型的方法，使用双向Mamba模块代替TF-GridNet模型中的Transformer组件，以捕获更广泛的上下文信息，从而实现更优异的语音分离性能。
其它亮点

SPMamba在Librispeech数据集上实现了显著的性能提升，相比TF-GridNet模型，SI-SNRi提高了2.42 dB。论文提供了开源代码。
相关研究

与当前研究方向相关的其他研究包括：CNN和Transformer在语音分离中的应用，基于Mamba的计算模型在计算机视觉领域的应用等。

SPMamba: State-space model is all you need in speech separation

提问交流

提问交流