- 简介自动语音识别(ASR)模型在大量音频数据的训练下,现在被广泛应用于将语音转换成书面文本,用于各种应用,从视频字幕到医疗和其他领域的自动助手。因此,ASR模型及其使用的公平性和公正性非常重要。以前的研究检查商业ASR系统在区域非裔美国语料库(CORAAL)上的表现表明,非裔美国英语(AAE)的ASR表现显著较差。本研究旨在通过检查当前最先进的基于神经网络的ASR系统(Whisper,OpenAI)在CORAAL数据集上的表现,了解导致这种差异的因素。本研究已经确定了两个关键发现。第一个确认了之前的发现,即即使在相邻社区之间,方言变化也很大,AAE的ASR表现较差,可以通过微调ASR模型在一定程度上得到改善。第二个是关于CORAAL的先前工作中没有讨论的新发现:数据集内的音频录制实践差异对ASR准确性产生重大影响,导致“来源混淆”效应,其中语言使用和录制质量因研究地点而异。这些发现强调了需要进一步系统地调查当检查神经ASR模型中的公平性和偏见时,录制质量和固有语言多样性的影响的需要,因为ASR准确性中的任何偏见可能对ASR技术在各种领域中的不平等产生负面影响。
- 图表
- 解决问题研究如何提高语音识别模型对非标准英语方言的准确性,解决现有模型在非标准英语方言上表现较差的问题,并探讨录音质量对模型准确性的影响。
- 关键思路通过使用最新的神经网络语音识别模型,对非标准英语方言数据集进行fine-tuning,以提高模型对非标准英语方言的识别准确性;并且发现数据集内录音质量的差异也会影响模型的准确性,需要进一步研究。
- 其它亮点使用最新的神经网络语音识别模型进行实验,并对模型进行fine-tuning;发现录音质量的差异对模型准确性的影响,提出了“confounding by provenance”概念;提出了需要进一步研究录音质量和语言多样性对模型准确性的影响。
- 最近的相关研究包括《Examining and addressing the speech recognition performance gap for African American Vernacular English》。
沙发等你来抢
去评论
评论
沙发等你来抢