Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper

简介

本文研究了如何在没有原始训练数据的情况下增强基于预训练多语言语音基础模型（如Whisper）在新语言上的性能，同时保留其在原始语言上的表现。虽然这些模型在不同语言上表现出色，但将其适应到新的或特定的语言上是计算密集型的，并面临着灾难性的遗忘问题。具体地，我们首先比较了各种基于LoRA的方法，以找出它们对遗忘的脆弱性。为了缓解这个问题，我们建议利用原始模型的LoRA参数对新样本进行近似正交梯度下降。此外，我们还引入了可学习的秩系数来分配可训练参数，以实现更高效的训练。我们使用中文Whisper模型（用于维吾尔语和藏语）进行实验，结果表明，这种方法可以获得更好的结果，并且具有更紧凑的参数集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决使用预训练的多语言语音基础模型进行新语言适应时的计算复杂度和灾难性遗忘问题。
关键思路

通过比较不同的LoRA方法的脆弱性，论文提出了利用原始模型的LoRA参数进行新样本的近似正交梯度下降的方法，同时引入可学习的秩系数来分配可训练参数，以提高新语言适应的效果。
其它亮点

论文使用了中文Whisper模型进行了实验，证明了提出的方法可以在不丧失原有性能的情况下提高新语言的适应性，并且可以使用更紧凑的参数集。论文还提供了开源代码。
相关研究

最近的相关研究包括使用元学习方法进行新语言适应的研究，如《Meta-Learning for Low-Resource Neural Machine Translation》。

Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper

提问交流

提问交流