Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context

简介

我们呈现了第一个完全基于非洲语音进行自我监督多语言语音模型的研究成果。该模型从撒哈拉以南非洲地区21种语言和方言的近60,000小时的未标记语音片段中学习。在FLEURS-102数据集的SSA子集上，我们采用HuBERT$_{base}$（0.09B）架构的方法，在ASR下游任务上表现出与FLEURS基准提出的w2v-bert-51（0.6B）预训练模型相当的竞争力，同时使用的数据量和参数数量分别少7倍和6倍，更加高效。此外，在LID下游任务的背景下，我们的方法将准确性提高了超过22％，优于FLEURS基准。
图表
解决问题

论文旨在通过一个自监督的多语言语音模型解决非洲语言语音识别（ASR）和语言识别（LID）的问题。
关键思路

论文提出的方法基于HuBERT$_{base}$架构，使用近60,000小时的21种非洲语言和方言的未标记语音数据进行训练，相比于当前领域的研究，该方法使用的数据更少、参数更少，但在ASR和LID下游任务中表现出了竞争力和优越性能。
其它亮点

实验使用了SSA子集的FLEURS-102数据集，证明了该方法的有效性。论文提供了开源代码。值得继续研究如何将该方法应用于其他语言和地区。
相关研究

最近的相关研究包括：FLEURS基准测试中提出的w2v-bert-51预训练模型。