- 简介在语音分离领域,CNN和Transformer模型都表现出了强大的分离能力,引起了研究界的广泛关注。然而,基于CNN的方法对于长序列音频的建模能力有限,导致分离性能不佳。相反,基于Transformer的方法由于计算复杂度高,在实际应用中受到限制。值得注意的是,在计算机视觉领域,基于Mamba的方法因其强大的性能和较低的计算需求而备受赞誉。本文提出了一种使用状态空间模型的语音分离网络架构,即SPMamba。我们采用TF-GridNet模型作为基础框架,并用双向Mamba模块替换其Transformer组件,旨在捕获更广泛的上下文信息。我们的实验结果揭示了基于Mamba的模型在性能方面的重要作用。SPMamba在Librispeech数据集上表现出卓越的性能,与现有分离模型相比具有显著优势。值得注意的是,SPMamba在分离质量方面取得了实质性的改进,与TF-GridNet相比,SI-SNRi提高了2.42 dB。SPMamba的源代码可在https://github.com/JusperLee/SPMamba上公开获取。
- 图表
- 解决问题提出了一种名为SPMamba的语音分离网络架构,旨在解决CNN和Transformer在长序列音频建模和计算复杂度方面的限制。
- 关键思路SPMamba采用基于状态空间模型的方法,使用双向Mamba模块代替TF-GridNet模型中的Transformer组件,以捕获更广泛的上下文信息,从而实现更优异的语音分离性能。
- 其它亮点SPMamba在Librispeech数据集上实现了显著的性能提升,相比TF-GridNet模型,SI-SNRi提高了2.42 dB。论文提供了开源代码。
- 与当前研究方向相关的其他研究包括:CNN和Transformer在语音分离中的应用,基于Mamba的计算模型在计算机视觉领域的应用等。
沙发等你来抢
去评论
评论
沙发等你来抢