- 简介本文讨论了Iu Mien语音识别的三种方法:基于音素或子词的监督式预训练、以及自监督式预训练。Iu Mien语言是中国瑶族主要民族语言,标注语音数据非常有限,因此属于低资源语言。本文使用不到10小时的Iu Mien语音数据,比较了这三种方法的效果。实验基于最近发布的三个骨干模型,这三个模型是在CommonVoice数据集的10种语言上进行预训练得到的,对应于低资源ASR的三种方法。研究发现,与子词监督和自监督相比,音素监督可以取得更好的结果,从而提高数据效率。特别是,基于弱监督的音素多语言预训练得到的Whistle模型获得了最具竞争力的结果。
- 图表
- 解决问题本论文旨在解决少量标注语音数据的低资源语音识别问题,以Iu Mien语言为例进行研究。
- 关键思路论文比较了三种低资源语音识别方法:基于音素或子词的有监督预训练,以及基于多语言数据的自监督预训练,发现基于音素的有监督预训练可以获得更好的结果,并提供更高的数据效率。
- 其它亮点论文使用了CommonVoice数据集中10种语言的预训练模型,进行了实验比较。其中,Whistle模型表现最好,即基于弱监督的音素预训练方法。论文还指出,该研究可以推广到其他低资源语言领域。
- 在低资源语音识别领域,还有一些相关研究,比如《Self-supervised Learning for Low-resource Speech Recognition》、《Phoneme-based Subword Modeling for Low-Resource Speech Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢