- 简介最近几年,多语言自动语音识别(ASR)取得了显著进展,这得益于端到端(E2E)模型的出现和多语言数据集的扩大。尽管如此,多语言ASR仍然存在两个主要挑战:语言干扰和引入新语言时不降低现有语言性能。本文提出了LoRA-Whisper,将LoRA矩阵融入Whisper中,有效减轻语言干扰。此外,通过利用LoRA和语言之间的相似性,我们可以在保持原有语言性能的同时,取得更好的新语言性能。在跨越八种语言的实际任务上进行的实验表明,我们提出的LoRA-Whisper相对于多语言ASR和语言扩展的基线系统分别获得了18.5%和23.0%的相对增益。
- 图表
- 解决问题解决多语言自动语音识别中的语言干扰和新语言加入对旧语言性能的影响问题。
- 关键思路将LoRA矩阵引入Whisper模型中,有效地减轻语言干扰,并通过利用LoRA和语言之间的相似性,在新语言上取得更好的性能,同时保持旧语言的一致性性能。
- 其它亮点实验在八种语言上进行,相对于基线系统,LoRA-Whisper在多语言ASR和语言扩展方面分别获得了18.5%和23.0%的相对增益。
- 最近的相关研究包括:1. End-to-end multilingual ASR with a single transformer model; 2. Multilingual Speech Recognition with a Single End-to-End Model Using Transformer and Connectionist Temporal Classification.
沙发等你来抢
去评论
评论
沙发等你来抢