WavLLM: Towards Robust and Adaptive Speech Large Language Model

2024年03月31日
  • 简介
    最近大型语言模型(LLMs)的进展已经彻底改变了自然语言处理领域,逐渐扩大了它们的范围,包括多模态感知和生成。然而,有效地将听力能力整合到LLMs中面临着重大挑战,特别是在跨越不同情境和执行复杂听觉任务方面。在这项工作中,我们介绍了WavLLM,这是一个具有双编码器和一个基于提示的LoRA权重适配器的强大而适应性强的语音大型语言模型,通过两阶段课程学习方法进行优化。利用双编码器,我们将不同类型的语音信息分离,利用Whisper编码器处理语音的语义内容,利用WavLM编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM首先通过优化混合基本单一任务来构建其基础能力,然后在更复杂的任务上进行高级多任务训练,例如基于基本任务的组合。为了增强模型对不同任务和指令的灵活性和遵循性,在第二个高级多任务训练阶段引入了一个基于提示的LoRA权重适配器。我们在通用语音基准测试中验证了所提出的模型,包括ASR、ST、SV、ER等任务,并将其应用于专门的数据集,如高考英语听力理解集和语音思维链(CoT)评估集。实验表明,所提出的模型在相同的模型大小下实现了一系列语音任务的最先进性能,展现了在使用CoT方法执行复杂任务方面的强大的泛化能力。此外,我们的模型成功地完成了高考任务而不需要专门的训练。代码、模型、音频和高考评估集可以在\url{aka.ms/wavllm}上获得。
  • 作者讲解·2
  • 图表
  • 解决问题
    WavLLM试图解决如何将听觉能力集成到大型语言模型中的问题,以及如何在不同的任务和指令下提高模型的灵活性和遵从性。
  • 关键思路
    WavLLM采用双编码器和prompt-aware LoRA权重适配器的优化方法,通过两阶段课程学习来实现鲁棒性和自适应性。利用双编码器解耦不同类型的语音信息,同时使用prompt-aware LoRA权重适配器提高模型的灵活性和遵从性。
  • 其它亮点
    该论文提出的WavLLM模型在多个语音任务上取得了最先进的性能,包括ASR、ST、SV、ER等任务,并且在高考英语听力理解和语音CoT评估集上也取得了成功。该论文提供了代码、模型、音频和高考评估集,可供进一步研究使用。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Listen, Attend and Walk: Neural Mapping of Navigational Instructions to Action Sequences》、《Learning to Listen, Read, and Follow: A Framework for Simultaneous Multipart Language Processing》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问