Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

2024年01月22日
  • 简介
    这项研究提出了一种新的知识蒸馏(KD)方法,从BERT教师模型到自动语音识别(ASR)模型使用中间层。为了蒸馏教师的知识,我们使用一个注意力解码器,从BERT的标记概率中学习。我们的方法表明,语言模型(LM)信息可以更有效地蒸馏到ASR模型中,同时使用中间层和最终层。通过使用中间层作为蒸馏目标,我们可以更有效地将LM知识蒸馏到较低的网络层中。使用我们的方法,我们实现了比外部LM的浅层融合更好的识别准确性,从而使我们能够保持快速的并行解码。在LibriSpeech数据集上的实验证明了我们的方法在增强使用连接时序分类(CTC)的贪婪解码方面的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在通过使用中间层将BERT教师模型的知识蒸馏到自动语音识别(ASR)模型中,提高ASR模型的识别准确率。
  • 关键思路
    本文提出了一种新的知识蒸馏方法,使用注意力解码器从BERT教师模型的标记概率中学习,并将中间层作为蒸馏目标,可以更有效地将语言模型(LM)知识蒸馏到较低的网络层。
  • 其它亮点
    本文的方法比外部LM的浅层融合更有效,可以保持快速并行解码。实验使用了LibriSpeech数据集,证明了该方法在提高贪婪解码与CTC的ASR模型的准确性方面的有效性。该论文的代码已经开源。
  • 相关研究
    近期的相关研究包括使用BERT进行语音识别的研究,如《End-to-End ASR: from Supervised to Semi-Supervised Learning with Modern Architectures》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问