- 简介本文介绍了Whisper,这是一个覆盖99种语言的多任务和多语言语音模型。它在其覆盖语言的一个子集中产生了值得称赞的自动语音识别(ASR)结果,但该模型仍然在一些少数语言上表现不佳,这个问题在较小的模型版本中更加明显。在本文中,我们提出了DistilWhisper,一种能够弥合这些语言ASR性能差距的方法,同时保留多任务和多语言能力的优势。我们的方法涉及两个关键策略:使用特定于语言的专家对whisper-small进行轻量级模块化ASR微调,并从whisper-large-v2进行知识蒸馏。这种双重方法使我们能够有效地提高ASR性能,同时保持从多任务和多语言预训练中继承的健壮性。结果表明,我们的方法比标准微调或LoRA适配器更有效,在针对性语言的测试集中提高了性能,同时在推理时仅引入了可忽略的参数开销。
- 图表
- 解决问题DistilWhisper试图提高Whisper模型在少数语言上的ASR性能,同时保留多任务和多语言预训练的优势。
- 关键思路DistilWhisper的关键策略是使用轻量级模块化ASR fine-tuning和来自Whisper-large-v2的知识蒸馏来提高ASR性能。
- 其它亮点DistilWhisper的实验表明,相对于标准的fine-tuning或LoRA适配器,该方法在少数语言上的ASR性能得到了显著提高,同时只引入了可忽略的推理参数开销。
- 最近的相关研究包括使用Transformer模型进行语音识别的研究,如Conformer和Transformer-Transducer。
沙发等你来抢
去评论
评论
沙发等你来抢