Improving child speech recognition with augmented child-like speech

简介

现代ASR在儿童语音识别方面表现不佳。儿童语音的稀缺性限制了儿童语音识别（CSR）的发展。因此，我们通过对数据集中现有的儿童演讲者和额外（新的）儿童演讲者进行单语言和跨语言（荷兰语到德语）的儿童对儿童语音转换（VC）研究。结果表明，跨语言儿童对儿童VC显著提高了儿童ASR的性能。对儿童对儿童跨语言VC生成数据数量对微调（FT）ASR模型的影响的实验表明，对于我们的FT-Conformer模型和FT-Whisper模型，两倍增加产生了最佳结果，与基线相比WER绝对值降低了约3％；对于从头开始训练的模型，六倍增加改善了3.6％的WER绝对值。此外，使用少量“高质量”VC生成数据可以获得与我们最佳FT模型类似的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何通过儿童之间的语音转换来提高儿童语音识别的性能
关键思路

使用跨语言儿童之间的语音转换来生成更多的数据，从而提高儿童语音识别的性能
其它亮点

实验结果表明，跨语言儿童之间的语音转换可以显著提高儿童语音识别的性能。使用少量的高质量转换数据可以实现与使用更多转换数据相似的结果。
相关研究

最近的相关研究包括：'Improving Child Speech Recognition Through Data Augmentation Using Adult Speech'，'Exploring Speech Recognition for Children Using Adult Training Data and Transfer Learning'，'Cross-Lingual Voice Conversion for Low-Resource Languages Using Phonetic Posteriorgrams and Adversarial Training'等。

Improving child speech recognition with augmented child-like speech

提问交流

提问交流