BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation

2024年05月29日
  • 简介
    最近的端到端方法表现出在将大型语言模型(LLMs)扩展到语音输入方面的潜力,但面临直接评估和优化对齐质量的限制,并且由于语音文本长度不匹配而无法实现细粒度对齐。我们介绍了BLSP-KD,一种通过知识蒸馏引导语言-语音预训练的新方法,通过两种关键技术解决了这些限制。首先,通过使用知识蒸馏最小化LLM的下一个标记预测分布的差异来优化语音文本对齐。其次,它采用连续集成和触发策略将语音分割成与文本标记一一对应的标记,实现了细粒度对齐。我们还介绍了Partial LoRA(PLoRA),这是一种新的适应方法,支持在知识蒸馏下对LLM进行语音输入的微调。定量评估表明,BLSP-KD优于以前的端到端基线和具有可比参数规模的级联系统,为LLMs提供了具有语音输入的通用指令遵循能力。这种方法为将LLMs扩展到口语交互提供了新的可能性。
  • 图表
  • 解决问题
    论文旨在解决如何将大型语言模型扩展到语音输入的问题,以实现语音与文本之间的细粒度对齐。
  • 关键思路
    通过知识蒸馏优化语音和文本输入的下一个标记预测分布之间的差异,以最小化语音文本对齐的差异,并采用连续集成和分段策略,将语音分段对齐到文本标记,实现细粒度对齐。
  • 其它亮点
    论文提出了BLSP-KD方法,通过知识蒸馏优化语音和文本输入的下一个标记预测分布之间的差异,并采用连续集成和分段策略,将语音分段对齐到文本标记,实现细粒度对齐。同时,提出了支持语言模型微调的PLoRA方法。实验结果表明,BLSP-KD方法优于以前的端到端基线和级联系统,为语音输入的LLM提供了通用的指令跟随能力。
  • 相关研究
    最近的相关研究包括:《End-to-End ASR: from Supervised to Semi-Supervised Learning with Modern Architectures》、《End-to-End Speech Recognition Models for Low-Resource Languages with a Multi-task Learning Framework》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论