- 简介这篇文章探讨了在自动语音识别(ASR)领域中,如何在嘈杂环境下提高鲁棒性。虽然最近出现了一些有前途的ASR模型,比如Whisper,但它们在嘈杂环境下的有效性仍有待提高。本研究旨在通过恢复数据包丢失来提高ASR模型的词错误率(WER)。我们提出使用一个前端适应网络,连接到一个冻结的ASR模型。适应网络被训练来通过最小化ASR模型的标准和增强损失函数来修改损坏的输入频谱。我们的实验表明,基于Whisper标准训练的适应网络,在数据包丢失的情况下显著降低了跨领域和跨语言的词错误率。这种改进对Whisper模型的基础性能影响很小,突显了我们的方法在提高ASR模型在具有挑战性的声学环境中的实用性和潜力。
-
- 图表
- 解决问题本论文旨在解决自动语音识别(ASR)在嘈杂环境下的鲁棒性问题,特别是针对数据包丢失情况下的识别错误率(WER)提出了解决方案。
- 关键思路论文提出了一种前端自适应网络的解决方案,该网络连接到一个冻结的ASR模型上,通过最小化ASR模型的标准和增强损失函数来训练自适应网络,从而修改受损输入频谱。实验结果表明,该方法能够显著降低跨领域和跨语言的识别错误率。
- 其它亮点实验设计了多个数据集,包括Whisper数据集,证明了该方法的有效性。此外,该方法对Whisper模型的基本性能影响较小,具有实际应用和潜在优势。
- 最近的相关研究包括使用深度神经网络和卷积神经网络等技术来提高ASR模型的鲁棒性。相关论文包括“Robust Speech Recognition with Joint Acoustic and Linguistic Embeddings”和“Convolutional Neural Networks for Small-footprint Keyword Spotting”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流