- 简介这项工作旨在研究一种可扩展的状态空间模型(SSM)Mamba,用于语音增强(SE)任务。我们利用基于Mamba的回归模型来表征语音信号,并在Mamba上构建一个SE系统,称为SEMamba。我们通过将其作为基本和高级SE系统的核心模型,并利用信号级距离和度量导向的损失函数,探索了Mamba的性质。SEMamba展示了有希望的结果,并在VoiceBank-DEMAND数据集上获得了3.55的PESQ分数。当与感知对比度拉伸技术相结合时,所提出的SEMamba获得了新的最先进的PESQ分数3.69。
- 图表
- 解决问题本论文旨在研究一种可扩展的状态空间模型(SSM)Mamba,用于语音增强(SE)任务。
- 关键思路论文提出了一种基于Mamba的回归模型,用于特征提取并构建SE系统。同时,论文探索了Mamba的性质,将其作为基本和高级SE系统的核心模型,并使用信号级距离和度量导向的损失函数。
- 其它亮点论文在VoiceBank-DEMAND数据集上实现了有希望的结果,PESQ得分为3.55。当与感知对比拉伸技术相结合时,提出的SEMamba获得了新的最高PESQ得分3.69。
- 最近在这个领域中,还有一些相关研究,如:'Deep Learning-Based Speech Enhancement: A Review','A Survey on Speech Enhancement: Front-End, Back-End, and Their Integration'等。
沙发等你来抢
去评论
评论
沙发等你来抢