Bridging the Gap: Integrating Pre-trained Speech Enhancement and Recognition Models for Robust Speech Recognition

简介

在实际场景中应用自动语音识别（ASR）时，噪声鲁棒性至关重要。其中一个解决方案是使用语音增强（SE）模型作为ASR的前端。然而，基于神经网络的SE（NN-based SE）常常会在增强信号中引入伪影，损害ASR的性能，特别是在SE和ASR独立训练时。因此，本研究介绍了一种简单而有效的SE后处理技术，以弥补各种预训练的SE和ASR模型之间的差距。提出了一个轻量级的桥接模块（bridge module），用于评估语音信号的信号级信息。随后，利用信号级信息，应用观测加法技术来有效减少SE的缺陷。实验结果证明了我们的方法成功地整合了各种预训练的SE和ASR模型，显著提高了ASR的鲁棒性。关键是，在训练或推理阶段不需要先前对ASR或语音内容有任何知识。此外，这种方法的有效性适用于不同的数据集，而不需要对桥接模块进行微调，确保了效率和改进的泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决ASR在噪声环境下的鲁棒性问题，避免使用NN-based SE模型会引入伪声影响ASR表现的问题。
关键思路

提出了一种简单有效的SE后处理技术，使用轻量级的桥接模块来评估语音信号的信号级信息，并应用观察添加技术来减少SE的缺点。
其它亮点

该方法可以集成不同预训练的SE和ASR模型，显著提高ASR的鲁棒性，并且不需要在训练或推理阶段了解ASR或语音内容的先验知识。实验结果表明，该方法的有效性适用于不同的数据集，而不需要微调桥接模块，保证了效率和改进的泛化性。
相关研究

近期的相关研究包括：'A Survey of Speech Enhancement: Front-End, Back-End, and Deep Learning Approaches'，'Deep Learning for Speech Enhancement: A Review'等。

Bridging the Gap: Integrating Pre-trained Speech Enhancement and Recognition Models for Robust Speech Recognition

提问交流

提问交流