Automatic Speech Recognition System-Independent Word Error Rate Estimatio

简介

这篇论文介绍了一种用于评估自动语音识别系统（ASR）产生的转录质量的度量标准，即词错误率（WER）。在许多应用中，估计给定语音语句和转录文本对的WER是很有意义的。以往的WER估计方法主要集中在构建针对特定ASR系统训练的模型上（称为ASR系统相关）。这些模型还与特定领域相关且在实际应用中不够灵活。本文提出了一种基于假设生成的ASR系统无关WER估计方法（SIWE）。与以往的方法不同，WER估计器使用模拟ASR系统输出的数据进行训练。假设是通过使用音素相似或语言上更可能的替代词语生成的。在WER估计实验中，该方法在领域内数据上达到了与ASR系统相关WER估计器相似的性能，并在领域外数据上实现了最先进的性能。在领域外数据上，SIWE模型在Switchboard和CALLHOME上的均方根误差和Pearson相关系数上相对于基线估计器分别提高了17.58％和18.21％。当训练集的WER接近于评估数据集的WER时，性能进一步提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种ASR系统无关的WER估计方法，以解决以往ASR系统相关、领域相关且不灵活的问题。
关键思路

论文提出用模拟ASR系统输出的数据训练WER估计器，并使用音素相似或语言学上更可能的替代词生成假设。
其它亮点

论文实验表明，该方法在领域内数据上与ASR系统相关的WER估计器具有类似的性能，在领域外数据上达到最先进的性能。在Switchboard和CALLHOME上，相对于基线估计器，该模型在均方根误差和Pearson相关系数上分别提高了17.58%和18.21%。论文还提供了开源代码。
相关研究

最近的相关研究包括：1. "End-to-End ASR: from Supervised to Semi-Supervised Learning with Modern Architectures"; 2. "Unsupervised Domain Adaptation for Automatic Speech Recognition with Domain-Confused Feature"。

Automatic Speech Recognition System-Independent Word Error Rate Estimatio

提问交流

提问交流