Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

简介

本文讨论了Iu Mien语音识别的三种方法：基于音素或子词的监督式预训练、以及自监督式预训练。Iu Mien语言是中国瑶族主要民族语言，标注语音数据非常有限，因此属于低资源语言。本文使用不到10小时的Iu Mien语音数据，比较了这三种方法的效果。实验基于最近发布的三个骨干模型，这三个模型是在CommonVoice数据集的10种语言上进行预训练得到的，对应于低资源ASR的三种方法。研究发现，与子词监督和自监督相比，音素监督可以取得更好的结果，从而提高数据效率。特别是，基于弱监督的音素多语言预训练得到的Whistle模型获得了最具竞争力的结果。
图表
解决问题

本论文旨在解决少量标注语音数据的低资源语音识别问题，以Iu Mien语言为例进行研究。
关键思路

论文比较了三种低资源语音识别方法：基于音素或子词的有监督预训练，以及基于多语言数据的自监督预训练，发现基于音素的有监督预训练可以获得更好的结果，并提供更高的数据效率。
其它亮点

论文使用了CommonVoice数据集中10种语言的预训练模型，进行了实验比较。其中，Whistle模型表现最好，即基于弱监督的音素预训练方法。论文还指出，该研究可以推广到其他低资源语言领域。
相关研究

在低资源语音识别领域，还有一些相关研究，比如《Self-supervised Learning for Low-resource Speech Recognition》、《Phoneme-based Subword Modeling for Low-Resource Speech Recognition》等。

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

评论