Bridging the Gap: Integrating Pre-trained Speech Enhancement and Recognition Models for Robust Speech Recognition

2024年06月18日
  • 简介
    在实际场景中应用自动语音识别(ASR)时,噪声鲁棒性至关重要。其中一个解决方案是使用语音增强(SE)模型作为ASR的前端。然而,基于神经网络的SE(NN-based SE)常常会在增强信号中引入伪影,损害ASR的性能,特别是在SE和ASR独立训练时。因此,本研究介绍了一种简单而有效的SE后处理技术,以弥补各种预训练的SE和ASR模型之间的差距。提出了一个轻量级的桥接模块(bridge module),用于评估语音信号的信号级信息。随后,利用信号级信息,应用观测加法技术来有效减少SE的缺陷。实验结果证明了我们的方法成功地整合了各种预训练的SE和ASR模型,显著提高了ASR的鲁棒性。关键是,在训练或推理阶段不需要先前对ASR或语音内容有任何知识。此外,这种方法的有效性适用于不同的数据集,而不需要对桥接模块进行微调,确保了效率和改进的泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    解决ASR在噪声环境下的鲁棒性问题,避免使用NN-based SE模型会引入伪声影响ASR表现的问题。
  • 关键思路
    提出了一种简单有效的SE后处理技术,使用轻量级的桥接模块来评估语音信号的信号级信息,并应用观察添加技术来减少SE的缺点。
  • 其它亮点
    该方法可以集成不同预训练的SE和ASR模型,显著提高ASR的鲁棒性,并且不需要在训练或推理阶段了解ASR或语音内容的先验知识。实验结果表明,该方法的有效性适用于不同的数据集,而不需要微调桥接模块,保证了效率和改进的泛化性。
  • 相关研究
    近期的相关研究包括:'A Survey of Speech Enhancement: Front-End, Back-End, and Deep Learning Approaches','Deep Learning for Speech Enhancement: A Review'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问