- 简介多语言和跨语言自动语音识别(MCL-ASR)有三种方法,包括受监督的基于音素或字素转录的预训练和自我监督的预训练。我们发现,至今为止,基于音素监督的预训练在MCL-ASR中受到了低估,尽管在概念上它更有利于不同语言之间的信息共享。本文探讨了一种名为Whistle的基于弱音素监督的预训练方法,旨在实现数据高效的MCL-ASR。我们放宽了对人工验证的黄金标准音素转录的要求,并利用LanguageNet字素到音素(G2P)模型获得基于国际音标(IPA)的转录。我们基于CommonVoice数据集构建了一个通用的实验设置,称为CV-Lang10,其中包含10种已知语言和2种未知语言。在CV-Lang10上进行了一系列实验,以尽可能公平地比较三种MCL-ASR方法的效果。实验表明,基于音素的模型(Whistle)在MCL-ASR方面具有优势,包括对已知语言的语音识别,对不同数量的少样本数据的未知语言的跨语言性能,克服灾难性遗忘和训练效率等方面。研究发现,当训练数据更为有限时,与基于子词和自我监督的方法相比,音素监督可以实现更好的结果,从而提高数据效率。为了支持可重复性并促进未来的研究,我们将在https://github.com/thu-spmi/CAT发布Whistle的整个流程的代码、模型和数据。
-
- 图表
- 解决问题本文旨在探讨基于语音的多语言和跨语言自动语音识别(MCL-ASR)中,使用弱语音监督进行预训练的方法,即Whistle方法,以提高数据效率。同时,比较这种方法与其他两种方法的表现。
- 关键思路Whistle方法采用基于国际音标(IPA)的转录,通过利用LanguageNet字素到音素(G2P)模型,放宽了对人工验证的黄金标准语音转录的要求。实验结果表明,相对于子词监督和自监督,基于音素的Whistle方法在MCL-ASR中具有更好的表现,特别是在训练数据有限的情况下。
- 其它亮点实验采用了CommonVoice数据集的CV-Lang10实验设置,其中包含10种已知语言和2种未知语言。实验结果表明,Whistle方法在已知语言的语音识别、对不同量的少量数据的未知语言的跨语言性能、克服灾难性遗忘和训练效率方面具有优势。为了支持可重复性和未来研究,作者将在https://github.com/thu-spmi/CAT发布Whistle的代码、模型和数据。
- 最近,也有一些相关的研究,如《Unsupervised Cross-lingual Representation Learning for Speech Recognition》和《Multilingual End-to-End Speech Recognition with Self-Supervised Pre-Training》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流