An Investigation of Incorporating Mamba for Speech Enhancement

简介

这项工作旨在研究一种可扩展的状态空间模型（SSM）Mamba，用于语音增强（SE）任务。我们利用基于Mamba的回归模型来表征语音信号，并在Mamba上构建一个SE系统，称为SEMamba。我们通过将其作为基本和高级SE系统的核心模型，并利用信号级距离和度量导向的损失函数，探索了Mamba的性质。SEMamba展示了有希望的结果，并在VoiceBank-DEMAND数据集上获得了3.55的PESQ分数。当与感知对比度拉伸技术相结合时，所提出的SEMamba获得了新的最先进的PESQ分数3.69。
图表
解决问题

本论文旨在研究一种可扩展的状态空间模型（SSM）Mamba，用于语音增强（SE）任务。
关键思路

论文提出了一种基于Mamba的回归模型，用于特征提取并构建SE系统。同时，论文探索了Mamba的性质，将其作为基本和高级SE系统的核心模型，并使用信号级距离和度量导向的损失函数。
其它亮点

论文在VoiceBank-DEMAND数据集上实现了有希望的结果，PESQ得分为3.55。当与感知对比拉伸技术相结合时，提出的SEMamba获得了新的最高PESQ得分3.69。
相关研究

最近在这个领域中，还有一些相关研究，如：'Deep Learning-Based Speech Enhancement: A Review'，'A Survey on Speech Enhancement: Front-End, Back-End, and Their Integration'等。