- 简介Word error rate (WER) 是一种度量自动语音识别(ASR)系统生成的转录质量的指标。在许多应用中,估计给定语音话语和转录文本对的 WER 是很有意义的。以前的 WER 估计工作侧重于构建针对特定 ASR 系统进行训练的模型(称为 ASR 系统相关)。这些模型还依赖于特定领域,无法在实际应用中灵活使用。本文提出了一种用于 ASR 系统无关 WER 估计(SIWE)的假设生成方法。与以前的工作不同,WER 估计器是使用模拟 ASR 系统输出的数据进行训练的。使用语音上相似或在语言上更可能的替代词生成假设。在 WER 估计实验中,所提出的方法在域内数据上达到了与 ASR 系统相关的 WER 估计器类似的性能,并在域外数据上实现了最先进的性能。在域外数据上,SIWE 模型在 Switchboard 和 CALLHOME 上的均方根误差和 Pearson 相关系数上相对于基线估计器分别提高了 17.58% 和 18.21%。当训练集的 WER 接近于评估数据集的 WER 时,性能进一步提高。
- 图表
- 解决问题本论文旨在提出一种ASR系统无关的WER估计方法,解决了以往WER估计方法需要针对特定ASR系统进行训练的问题。
- 关键思路该论文提出了一种基于模拟ASR系统输出的假设生成方法,使用语音相似或语言学上更可能的替代词生成假设,从而实现ASR系统无关的WER估计。
- 其它亮点论文在实验中表现出与ASR系统相关的WER估计器类似的性能,并在跨领域数据上实现了最先进的性能。论文使用了Switchboard和CALLHOME数据集,并提供了开源代码。
- 最近的相关研究包括基于深度学习的WER估计方法和基于语音和文本的相似度度量方法。
沙发等你来抢
去评论
评论
沙发等你来抢