- 简介在实际场景中应用自动语音识别(ASR)时,噪声鲁棒性至关重要。其中一个解决方案是使用语音增强(SE)模型作为ASR的前端。然而,基于神经网络的SE(NN-based SE)常常会在增强信号中引入伪影,损害ASR的性能,特别是在SE和ASR独立训练时。因此,本研究介绍了一种简单而有效的SE后处理技术,以弥补各种预训练的SE和ASR模型之间的差距。提出了一个轻量级的桥接模块(bridge module),用于评估语音信号的信号级信息。随后,利用信号级信息,应用观测加法技术来有效减少SE的缺陷。实验结果证明了我们的方法成功地整合了各种预训练的SE和ASR模型,显著提高了ASR的鲁棒性。关键是,在训练或推理阶段不需要先前对ASR或语音内容有任何知识。此外,这种方法的有效性适用于不同的数据集,而不需要对桥接模块进行微调,确保了效率和改进的泛化能力。
-
- 图表
- 解决问题解决ASR在噪声环境下的鲁棒性问题,避免使用NN-based SE模型会引入伪声影响ASR表现的问题。
- 关键思路提出了一种简单有效的SE后处理技术,使用轻量级的桥接模块来评估语音信号的信号级信息,并应用观察添加技术来减少SE的缺点。
- 其它亮点该方法可以集成不同预训练的SE和ASR模型,显著提高ASR的鲁棒性,并且不需要在训练或推理阶段了解ASR或语音内容的先验知识。实验结果表明,该方法的有效性适用于不同的数据集,而不需要微调桥接模块,保证了效率和改进的泛化性。
- 近期的相关研究包括:'A Survey of Speech Enhancement: Front-End, Back-End, and Deep Learning Approaches','Deep Learning for Speech Enhancement: A Review'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流