Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

2024年06月06日
  • 简介
    kNN-CTC模型已被证明对于单语言自动语音识别(ASR)非常有效。然而,将其直接应用于多语言场景,如代码切换,会带来挑战。虽然有潜力提高性能,但利用单个双语数据存储库的kNN-CTC模型可能会无意中引入来自另一种语言的不良噪声。为了解决这个问题,我们提出了一种新颖的基于kNN-CTC的代码切换ASR(CS-ASR)框架,采用双语言数据存储库和门控数据存储库选择机制来减少噪声干扰。我们的方法选择适当的数据存储库来解码每个帧,确保将语言特定信息注入ASR过程中。我们将这个框架应用于最先进的基于CTC的模型,开发了一个先进的CS-ASR系统。广泛的实验证明了我们的门控数据存储库机制在增强零-shot中英文CS-ASR性能方面的显着有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决kNN-CTC模型在多语言场景下的应用问题,特别是在代码切换(code-switching)场景下的应用,如何减少来自其他语言的噪声干扰。
  • 关键思路
    本文提出了一种新的kNN-CTC基于代码切换ASR(CS-ASR)框架,采用双语言单存储库和门控存储库选择机制来减少噪声干扰。
  • 其它亮点
    本文的亮点在于提出了一种新的框架来解决多语言场景下的ASR问题,使用了双语言单存储库和门控存储库选择机制来减少噪声干扰。实验结果表明,该方法在零样本的中英文代码切换ASR中的表现非常有效。
  • 相关研究
    最近的相关研究包括:1)多语言ASR的其他方法,如基于深度学习的方法;2)代码切换ASR的其他方法,如基于语言模型的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问