Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

2024年07月18日
  • 简介
    本文讨论了Iu Mien语音识别的三种方法:基于音素或子词的监督式预训练、以及自监督式预训练。Iu Mien语言是中国瑶族主要民族语言,标注语音数据非常有限,因此属于低资源语言。本文使用不到10小时的Iu Mien语音数据,比较了这三种方法的效果。实验基于最近发布的三个骨干模型,这三个模型是在CommonVoice数据集的10种语言上进行预训练得到的,对应于低资源ASR的三种方法。研究发现,与子词监督和自监督相比,音素监督可以取得更好的结果,从而提高数据效率。特别是,基于弱监督的音素多语言预训练得到的Whistle模型获得了最具竞争力的结果。
  • 图表
  • 解决问题
    本论文旨在解决少量标注语音数据的低资源语音识别问题,以Iu Mien语言为例进行研究。
  • 关键思路
    论文比较了三种低资源语音识别方法:基于音素或子词的有监督预训练,以及基于多语言数据的自监督预训练,发现基于音素的有监督预训练可以获得更好的结果,并提供更高的数据效率。
  • 其它亮点
    论文使用了CommonVoice数据集中10种语言的预训练模型,进行了实验比较。其中,Whistle模型表现最好,即基于弱监督的音素预训练方法。论文还指出,该研究可以推广到其他低资源语言领域。
  • 相关研究
    在低资源语音识别领域,还有一些相关研究,比如《Self-supervised Learning for Low-resource Speech Recognition》、《Phoneme-based Subword Modeling for Low-Resource Speech Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论