Towards scalable efficient on-device ASR with transfer learning

2024年07月23日
  • 简介
    多语言预训练对于低资源单语音频识别模型的迁移学习具有显著的提升鲁棒性的作用。本研究系统地研究了三个主要方面:(a)迁移学习对于模型在初始训练或微调期间性能的影响,(b)跨数据集领域和语言的迁移学习的影响,以及(c)与非稀有词相比,对于稀有词识别的影响。我们的研究发现,RNNT-loss预训练,随后使用最小词错误率(MinWER)损失进行单语微调,可以在像意大利语和法语这样的语言中始终降低单词错误率(WER)。相对于MLS和内部数据集的单语基线,WER降低率(WERR)分别达到36.2%和42.8%。域外预训练的WERR比域内预训练高28%。稀有词和非稀有词都受益,稀有词在域外预训练时显示出更大的改进,而非稀有词在域内预训练时显示出更大的改进。
  • 图表
  • 解决问题
    本论文旨在通过多语言预训练来提高低资源单语音频识别模型的鲁棒性,并系统地研究了三个方面的影响:预训练对模型性能的影响、跨数据集领域和语言的转移学习的影响以及对稀有词识别的影响。
  • 关键思路
    本论文采用RNNT-loss预训练,然后使用最小词错误率(MinWER)损失进行单语言微调,可以显著降低词错误率(WER),特别是对于意大利语和法语等语言,WER降低了36.2%和42.8%。跨领域预训练比领域内预训练可以获得更高的WER降低率。
  • 其它亮点
    本论文的实验结果表明,预训练可以提高低资源语音识别模型的性能,并且跨领域预训练可以获得更好的效果。同时,稀有词和非稀有词都可以受益于预训练,但稀有词的效果更加明显。该论文的代码已经公开。
  • 相关研究
    与本论文相关的其他研究包括:“Transfer Learning for Low-Resource Speech Recognition: A Survey”和“Unsupervised Pretraining for Speech Recognition”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论