- 简介语音技术的发展得益于数据集规模的快速增长。传统的语音模型通常依赖于大量标注的训练数据,而低资源语言的标注数据往往很少。本文介绍了GigaSpeech 2,这是一个大规模的、多领域的、多语言的语音识别语料库。它专为低资源语言设计,不依赖于配对的语音和文本数据。GigaSpeech 2包括约30,000小时的自动转录语音,包括泰语、印尼语和越南语,这些语音数据来自未标注的YouTube视频。我们还介绍了一个自动化的数据爬取、转录和标注细化流程。具体来说,该流程使用Whisper进行初始转录,使用TorchAudio进行强制对齐,结合多维过滤进行数据质量保证。我们开发了一种改进的Noisy Student Training方法,通过迭代地进一步改进有缺陷的伪标签,从而提高模型性能。我们在手动转录的评估集和来自Common Voice和FLEURS的两个公共测试集上进行了实验,证实了我们语料库的高质量和广泛适用性。值得注意的是,与Whisper large-v3模型相比,使用GigaSpeech 2训练的ASR模型可以将我们具有挑战性和现实性的YouTube测试集中泰语、印尼语和越南语的词错误率降低25%至40%,仅使用10%的模型参数。此外,与商业服务相比,使用GigaSpeech 2训练的ASR模型表现更优。我们相信,我们新引入的语料库和流程将为低资源语音识别开辟新途径,并显著促进该领域的研究。
- 图表
- 解决问题GigaSpeech 2试图解决低资源语言语音识别中缺乏标注数据的问题。
- 关键思路GigaSpeech 2是一个大规模、多领域、多语种的语音识别语料库,由自动转录的语音组成,无需配对的语音和文本数据。使用Whisper进行初始转录和TorchAudio进行强制对齐,结合多维过滤进行数据质量保证。使用改进的Noisy Student Training进一步改善伪标签,提高模型性能。
- 其它亮点GigaSpeech 2包含约3万小时的语音数据,包括泰语、印尼语和越南语,从未标记的YouTube视频中收集。作者介绍了一个自动化的数据爬取、转录和标签细化流程。在手动转录的评估集和两个公共测试集上进行实验,结果表明该语料库具有高质量和广泛的适用性。使用GigaSpeech 2训练的ASR模型可以将泰语、印尼语和越南语的词错误率在具有挑战性和现实的YouTube测试集上降低25%至40%,相比Whisper large-v3模型,仅使用10%的模型参数。此外,使用Gigaspeech 2训练的ASR模型与商业服务相比具有更好的性能。
- 近期的相关研究包括:《Unsupervised Learning of Low-Resource Speech Recognition》、《Self-Training and Pre-Training Are Complementary for Speech Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢