Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis

2024年07月04日
  • 简介
    本文研究了使用无监督文本到语音合成(TTS)作为数据增强方法来提高口音识别的效果。TTS系统是使用少量口音语音训练数据和其伪标签进行训练,而不是手动转录,因此是无监督的。这种方法使得可以使用口音语音数据进行数据增强,而不需要手动转录。使用TTS系统从文本提示中生成合成口音语音数据,然后与可用的非口音语音数据结合使用来训练自动语音识别(ASR)系统。ASR实验是在自监督学习框架下进行的,使用预先训练于大量无监督口音语音数据的Wav2vec2.0模型。用于训练无监督TTS的口音语音数据是来自L2-ARCTIC和British Isles语料库的朗读语音,而用于评估的则是来自Edinburgh国际英语口音语料库的自发对话语音。实验结果表明,将使用无监督TTS生成的合成口音语音数据对下游ASR任务进行微调的Wav2vec2.0模型,相对于使用来自Librispeech语料库的非口音语音数据进行微调的Wav2vec2.0基线,可以获得高达6.1%的相对词错误率降低。
  • 图表
  • 解决问题
    本论文旨在探究无监督文本转语音合成(TTS)作为数据增强方法以提高口音识别的效果。其解决的问题是如何在没有手动转录口音数据的情况下,利用TTS合成口音数据进行数据增强。
  • 关键思路
    论文使用无监督TTS系统生成合成口音数据,并将其与现有非口音数据结合,用于训练自动语音识别(ASR)系统,以提高口音识别的准确性。
  • 其它亮点
    论文使用Wav2vec2.0模型进行自监督学习,该模型在大量无监督口音数据上进行了预训练。作者使用L2-ARCTIC和British Isles语料库中的阅读语音作为训练TTS系统的口音数据,使用爱丁堡国际英语口音语料库中的自然对话语音作为评估数据。实验结果表明,使用无监督TTS生成的合成口音数据对Wav2vec2.0模型进行微调,相对于使用Librispeech语料库中的非口音数据微调的Wav2vec2.0模型,可以使识别错误率降低最多6.1%。论文提出的无监督TTS数据增强方法可以为口音识别领域提供新的思路。
  • 相关研究
    最近的相关研究包括使用TTS进行数据增强的其他工作,例如使用TTS合成口音数据进行语音识别的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论