Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance

简介

自动语音识别（ASR）模型在大量音频数据的训练下，现在被广泛应用于将语音转换成书面文本，用于各种应用，从视频字幕到医疗和其他领域的自动助手。因此，ASR模型及其使用的公平性和公正性非常重要。以前的研究检查商业ASR系统在区域非裔美国语料库（CORAAL）上的表现表明，非裔美国英语（AAE）的ASR表现显著较差。本研究旨在通过检查当前最先进的基于神经网络的ASR系统（Whisper，OpenAI）在CORAAL数据集上的表现，了解导致这种差异的因素。本研究已经确定了两个关键发现。第一个确认了之前的发现，即即使在相邻社区之间，方言变化也很大，AAE的ASR表现较差，可以通过微调ASR模型在一定程度上得到改善。第二个是关于CORAAL的先前工作中没有讨论的新发现：数据集内的音频录制实践差异对ASR准确性产生重大影响，导致“来源混淆”效应，其中语言使用和录制质量因研究地点而异。这些发现强调了需要进一步系统地调查当检查神经ASR模型中的公平性和偏见时，录制质量和固有语言多样性的影响的需要，因为ASR准确性中的任何偏见可能对ASR技术在各种领域中的不平等产生负面影响。
图表
解决问题

研究如何提高语音识别模型对非标准英语方言的准确性，解决现有模型在非标准英语方言上表现较差的问题，并探讨录音质量对模型准确性的影响。
关键思路

通过使用最新的神经网络语音识别模型，对非标准英语方言数据集进行fine-tuning，以提高模型对非标准英语方言的识别准确性；并且发现数据集内录音质量的差异也会影响模型的准确性，需要进一步研究。
其它亮点

使用最新的神经网络语音识别模型进行实验，并对模型进行fine-tuning；发现录音质量的差异对模型准确性的影响，提出了“confounding by provenance”概念；提出了需要进一步研究录音质量和语言多样性对模型准确性的影响。
相关研究

最近的相关研究包括《Examining and addressing the speech recognition performance gap for African American Vernacular English》。

Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance

评论