Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

2023年11月02日
  • 简介
    本文介绍了Whisper,这是一个覆盖99种语言的多任务和多语言语音模型。它在其覆盖语言的一个子集中产生了值得称赞的自动语音识别(ASR)结果,但该模型仍然在一些少数语言上表现不佳,这个问题在较小的模型版本中更加明显。在本文中,我们提出了DistilWhisper,一种能够弥合这些语言ASR性能差距的方法,同时保留多任务和多语言能力的优势。我们的方法涉及两个关键策略:使用特定于语言的专家对whisper-small进行轻量级模块化ASR微调,并从whisper-large-v2进行知识蒸馏。这种双重方法使我们能够有效地提高ASR性能,同时保持从多任务和多语言预训练中继承的健壮性。结果表明,我们的方法比标准微调或LoRA适配器更有效,在针对性语言的测试集中提高了性能,同时在推理时仅引入了可忽略的参数开销。
  • 图表
  • 解决问题
    DistilWhisper试图提高Whisper模型在少数语言上的ASR性能,同时保留多任务和多语言预训练的优势。
  • 关键思路
    DistilWhisper的关键策略是使用轻量级模块化ASR fine-tuning和来自Whisper-large-v2的知识蒸馏来提高ASR性能。
  • 其它亮点
    DistilWhisper的实验表明,相对于标准的fine-tuning或LoRA适配器,该方法在少数语言上的ASR性能得到了显著提高,同时只引入了可忽略的推理参数开销。
  • 相关研究
    最近的相关研究包括使用Transformer模型进行语音识别的研究,如Conformer和Transformer-Transducer。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论