Automatic Speech Recognition System-Independent Word Error Rate Estimatio

2024年04月25日
  • 简介
    这篇论文介绍了一种用于评估自动语音识别系统(ASR)产生的转录质量的度量标准,即词错误率(WER)。在许多应用中,估计给定语音语句和转录文本对的WER是很有意义的。以往的WER估计方法主要集中在构建针对特定ASR系统训练的模型上(称为ASR系统相关)。这些模型还与特定领域相关且在实际应用中不够灵活。本文提出了一种基于假设生成的ASR系统无关WER估计方法(SIWE)。与以往的方法不同,WER估计器使用模拟ASR系统输出的数据进行训练。假设是通过使用音素相似或语言上更可能的替代词语生成的。在WER估计实验中,该方法在领域内数据上达到了与ASR系统相关WER估计器相似的性能,并在领域外数据上实现了最先进的性能。在领域外数据上,SIWE模型在Switchboard和CALLHOME上的均方根误差和Pearson相关系数上相对于基线估计器分别提高了17.58%和18.21%。当训练集的WER接近于评估数据集的WER时,性能进一步提高。
  • 图表
  • 解决问题
    论文旨在提出一种ASR系统无关的WER估计方法,以解决以往ASR系统相关、领域相关且不灵活的问题。
  • 关键思路
    论文提出用模拟ASR系统输出的数据训练WER估计器,并使用音素相似或语言学上更可能的替代词生成假设。
  • 其它亮点
    论文实验表明,该方法在领域内数据上与ASR系统相关的WER估计器具有类似的性能,在领域外数据上达到最先进的性能。在Switchboard和CALLHOME上,相对于基线估计器,该模型在均方根误差和Pearson相关系数上分别提高了17.58%和18.21%。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:1. "End-to-End ASR: from Supervised to Semi-Supervised Learning with Modern Architectures"; 2. "Unsupervised Domain Adaptation for Automatic Speech Recognition with Domain-Confused Feature"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论