- 简介这篇论文介绍了一种用于评估自动语音识别系统(ASR)产生的转录质量的度量标准,即词错误率(WER)。在许多应用中,估计给定语音语句和转录文本对的WER是很有意义的。以往的WER估计方法主要集中在构建针对特定ASR系统训练的模型上(称为ASR系统相关)。这些模型还与特定领域相关且在实际应用中不够灵活。本文提出了一种基于假设生成的ASR系统无关WER估计方法(SIWE)。与以往的方法不同,WER估计器使用模拟ASR系统输出的数据进行训练。假设是通过使用音素相似或语言上更可能的替代词语生成的。在WER估计实验中,该方法在领域内数据上达到了与ASR系统相关WER估计器相似的性能,并在领域外数据上实现了最先进的性能。在领域外数据上,SIWE模型在Switchboard和CALLHOME上的均方根误差和Pearson相关系数上相对于基线估计器分别提高了17.58%和18.21%。当训练集的WER接近于评估数据集的WER时,性能进一步提高。
- 图表
- 解决问题论文旨在提出一种ASR系统无关的WER估计方法,以解决以往ASR系统相关、领域相关且不灵活的问题。
- 关键思路论文提出用模拟ASR系统输出的数据训练WER估计器,并使用音素相似或语言学上更可能的替代词生成假设。
- 其它亮点论文实验表明,该方法在领域内数据上与ASR系统相关的WER估计器具有类似的性能,在领域外数据上达到最先进的性能。在Switchboard和CALLHOME上,相对于基线估计器,该模型在均方根误差和Pearson相关系数上分别提高了17.58%和18.21%。论文还提供了开源代码。
- 最近的相关研究包括:1. "End-to-End ASR: from Supervised to Semi-Supervised Learning with Modern Architectures"; 2. "Unsupervised Domain Adaptation for Automatic Speech Recognition with Domain-Confused Feature"。
沙发等你来抢
去评论
评论
沙发等你来抢