Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance

2024年07月19日
  • 简介
    自动语音识别(ASR)模型在大量音频数据的训练下,现在被广泛应用于将语音转换成书面文本,用于各种应用,从视频字幕到医疗和其他领域的自动助手。因此,ASR模型及其使用的公平性和公正性非常重要。以前的研究检查商业ASR系统在区域非裔美国语料库(CORAAL)上的表现表明,非裔美国英语(AAE)的ASR表现显著较差。本研究旨在通过检查当前最先进的基于神经网络的ASR系统(Whisper,OpenAI)在CORAAL数据集上的表现,了解导致这种差异的因素。本研究已经确定了两个关键发现。第一个确认了之前的发现,即即使在相邻社区之间,方言变化也很大,AAE的ASR表现较差,可以通过微调ASR模型在一定程度上得到改善。第二个是关于CORAAL的先前工作中没有讨论的新发现:数据集内的音频录制实践差异对ASR准确性产生重大影响,导致“来源混淆”效应,其中语言使用和录制质量因研究地点而异。这些发现强调了需要进一步系统地调查当检查神经ASR模型中的公平性和偏见时,录制质量和固有语言多样性的影响的需要,因为ASR准确性中的任何偏见可能对ASR技术在各种领域中的不平等产生负面影响。
  • 图表
  • 解决问题
    研究如何提高语音识别模型对非标准英语方言的准确性,解决现有模型在非标准英语方言上表现较差的问题,并探讨录音质量对模型准确性的影响。
  • 关键思路
    通过使用最新的神经网络语音识别模型,对非标准英语方言数据集进行fine-tuning,以提高模型对非标准英语方言的识别准确性;并且发现数据集内录音质量的差异也会影响模型的准确性,需要进一步研究。
  • 其它亮点
    使用最新的神经网络语音识别模型进行实验,并对模型进行fine-tuning;发现录音质量的差异对模型准确性的影响,提出了“confounding by provenance”概念;提出了需要进一步研究录音质量和语言多样性对模型准确性的影响。
  • 相关研究
    最近的相关研究包括《Examining and addressing the speech recognition performance gap for African American Vernacular English》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论