Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

简介

本文介绍了Whisper，这是一个覆盖99种语言的多任务和多语言语音模型。它在其覆盖语言的一个子集中产生了值得称赞的自动语音识别（ASR）结果，但该模型仍然在一些少数语言上表现不佳，这个问题在较小的模型版本中更加明显。在本文中，我们提出了DistilWhisper，一种能够弥合这些语言ASR性能差距的方法，同时保留多任务和多语言能力的优势。我们的方法涉及两个关键策略：使用特定于语言的专家对whisper-small进行轻量级模块化ASR微调，并从whisper-large-v2进行知识蒸馏。这种双重方法使我们能够有效地提高ASR性能，同时保持从多任务和多语言预训练中继承的健壮性。结果表明，我们的方法比标准微调或LoRA适配器更有效，在针对性语言的测试集中提高了性能，同时在推理时仅引入了可忽略的参数开销。
图表
解决问题

DistilWhisper试图提高Whisper模型在少数语言上的ASR性能，同时保留多任务和多语言预训练的优势。
关键思路

DistilWhisper的关键策略是使用轻量级模块化ASR fine-tuning和来自Whisper-large-v2的知识蒸馏来提高ASR性能。
其它亮点

DistilWhisper的实验表明，相对于标准的fine-tuning或LoRA适配器，该方法在少数语言上的ASR性能得到了显著提高，同时只引入了可忽略的推理参数开销。
相关研究

最近的相关研究包括使用Transformer模型进行语音识别的研究，如Conformer和Transformer-Transducer。

Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

评论