- 简介随着自动语音识别(ASR)模型的普及,确保它们在物理和数字世界中存在的各种污染下做出可靠预测非常重要。我们提出了Speech Robust Bench(SRB),这是一个全面的基准,用于评估ASR模型对各种污染的鲁棒性。SRB由69个输入扰动组成,旨在模拟ASR模型可能在物理和数字世界中遇到的各种污染。我们使用SRB来评估几种最先进的ASR模型的鲁棒性,并观察到模型大小和某些建模选择(例如离散表示和自我训练)似乎有助于提高鲁棒性。我们扩展了这项分析,以衡量ASR模型在各种人口子群体的数据上的鲁棒性,包括英语和西班牙语的说话者以及男性和女性,并观察到模型的鲁棒性在不同子群体之间存在明显的差异。我们相信,SRB将有助于未来研究鲁棒ASR模型,使全面且可比较的鲁棒性评估更加容易进行。
-
- 图表
- 解决问题本文旨在解决语音识别模型在面对物理和数字世界中的各种干扰时的鲁棒性问题,并通过一个全面的基准测试SRB来评估模型的鲁棒性。
- 关键思路本文提出了一个全面的基准测试SRB,其中包含69个输入扰动,旨在模拟ASR模型在物理和数字世界中可能遇到的各种干扰。通过SRB评估了几种最先进的ASR模型的鲁棒性,并发现模型大小和某些建模选择(如离散表示和自我训练)有助于提高鲁棒性。
- 其它亮点本文通过提出全面的基准测试SRB来评估ASR模型的鲁棒性,并发现模型大小和某些建模选择对鲁棒性有帮助。此外,还评估了ASR模型在不同人口子群体中的鲁棒性,并发现在不同子群体中模型的鲁棒性存在明显差异。该研究为未来研究提供了方便进行全面可比较的鲁棒性评估的基准测试。
- 最近,也有一些相关的研究在这个领域进行,如《Robust Speech Recognition in Unknown Noise Conditions Using Convolutional Neural Networks》、《Robust Speech Recognition with LSTM Neural Networks Trained on Noisy Speech》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流