Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting

2024年06月18日
  • 简介
    这篇文章讲述了端到端的多语音识别模型可以通过单一模型处理多种语言,并且通常会使用语言识别技术来自动检测输入语音的语言。由于通常情况下语言已知,这些模型可以使用语言信息作为提示,作为语言特定的表现,尤其对于基于注意力的编码器-解码器结构非常有益。然而,连接时序分类(CTC)方法通过联合解码和多任务训练来增强识别,由于其有条件地独立于输出令牌,因此通常不包含语言提示。为了克服这一问题,作者在自我条件CTC框架中引入了编码器提示技术,以零-shot方式使CTC模型进行语言特定的适应。我们的方法已经证明可以平均减少28%的错误率,并且在资源匮乏的语言中可以减少41%的错误率。
  • 图表
  • 解决问题
    如何在Connectionist Temporal Classification (CTC)模型中实现多语言自适应?
  • 关键思路
    通过在自条件CTC框架中引入编码提示技术,实现对CTC模型的零-shot多语言自适应,从而显著降低多语言语音识别错误率。
  • 其它亮点
    实验结果表明,该方法平均降低了28%的错误率,在低资源语言上降低了41%的错误率。
  • 相关研究
    最近的相关研究包括使用多语言数据进行预训练和使用多语言转移学习的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论