Large Language Models are Efficient Learners of Noise-Robust Speech Recognition

2024年01月19日
  • 简介
    最近大型语言模型的进展促进了自动语音识别中的生成式纠错,利用LLM的丰富语言知识和强大推理能力来改善识别结果。最新的工作提出了一个GER基准测试,使用HyPoradise数据集通过高效的LLM微调学习从ASR N-best假设到基准转录的映射,表现出极强的有效性,但在噪声鲁棒ASR方面缺乏特定性。在这项工作中,我们将基准测试扩展到噪声条件下,并研究是否可以像强健ASR一样教LLM执行去噪处理,其中一种解决方案是将噪声信息作为调节器引入到LLM中。然而,直接从音频编码器中引入噪声嵌入可能会对LLM微调造成伤害,因为存在跨模态差距。为此,我们提出从N-best列表中提取一个语言空间噪声嵌入来表示源语音的噪声条件,这可以促进GER中的去噪过程。此外,为了增强其对音频噪声的表示能力,我们设计了一种知识蒸馏方法,通过相互信息估计将音频嵌入中的真实噪声信息蒸馏到我们的语言嵌入中。在各种最新的LLM上的实验表明,我们的方法在有限的训练数据下取得了新的突破,词错误率的纠正提高了高达53.9%。分析表明,我们的语言空间噪声嵌入可以很好地表示源语音的噪声条件,在此条件下,现成的LLM表现出强大的语言空间去噪能力。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在扩展基于大语言模型的自动语音识别纠错(GER)的基准测试,以适应嘈杂环境,并探索通过从N-best列表中提取语言空间噪声嵌入来代表源语音的噪声条件,以促进GER中的去噪过程。
  • 关键思路
    通过从N-best列表中提取语言空间噪声嵌入来代表源语音的噪声条件,以促进GER中的去噪过程。通过知识蒸馏方法来提高噪声嵌入的表示能力。
  • 其它亮点
    该方法在各种最新的大语言模型上进行了实验,并取得了53.9%的纠正改进,同时具有有限的训练数据。该语言空间噪声嵌入可以很好地代表源语音的噪声条件,使得现成的大语言模型表现出强大的语言空间去噪能力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM”和“Robust End-to-End Speech Recognition via Adversarial Training”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问