- 简介语音分离是从多人语音信号中提取单个说话者的声音。现实世界中环境的日益复杂,多个说话者可能同时交谈,这凸显了有效的语音分离技术的重要性。本文提出了一种面向嘈杂和混响环境的单麦克风说话者分离网络,使用了TF注意力。我们将这种新架构称为分离TF注意力网络(Sep-TFAnet)。此外,我们还提出了分离网络的一种变体,称为$ \text{Sep-TFAnet}^{\text{VAD}}$,它将语音活动检测器(VAD)纳入分离网络中。分离模块基于Conv-Tasnet架构,采用多种修改后的时间卷积网络(TCN)骨干。我们使用短时傅里叶变换(STFT)和逆短时傅里叶变换(iSTFT)进行分析和合成,而不是学习的编码器和解码器。我们的系统专门针对人机交互开发,并应支持在线模式。$ \text{Sep-TFAnet}^{\text{VAD}}$和Sep-TFAnet的分离能力在多种声学条件下进行了评估和广泛分析,证明了它们在竞争方法上的优势。由于在模拟数据上训练的分离网络往往在真实录音上表现不佳,我们还展示了所提出方案更好地推广到由人形机器人在我们的声学实验室中录制的现实示例的能力。项目页面:https://Sep-TFAnet.github.io
- 图表
- 解决问题解决问题:本论文旨在解决在多说者环境下,从单个麦克风信号中提取单个说话者的语音的问题,特别是在嘈杂和混响环境中。
- 关键思路关键思路:论文提出了一种名为Sep-TFAnet的单麦克风说话人分离网络,采用TF注意力机制,以STFT和iSTFT进行分析和合成,使用TCN骨干网络进行分离。此外,还提出了一种称为Sep-TFAnet^VAD的变体,将语音活动检测器(VAD)整合到分离网络中。
- 其它亮点其他亮点:论文的实验结果表明,Sep-TFAnet和Sep-TFAnet^VAD在多种声学条件下表现出优越性,此外,还展示了该方案对真实录音的更好泛化能力。此外,该项目还提供了开源代码。
- 相关研究:最近的相关研究包括Conv-Tasnet、Deep Clustering、Deep Attractor Network等。
沙发等你来抢
去评论
评论
沙发等你来抢