- 简介本文提出了一种基于Switch-Conformer的MoE系统,名为SC-MoE,用于统一流式和非流式代码切换(CS)自动语音识别(ASR)。我们设计了一个流式MoE层,由三个语言专家组成,分别对应普通话、英语和空白,并在SC-MoE的编码器中配备了一种语言识别(LID)网络,其中使用CTC损失作为路由器,以实现实时流式CS ASR系统。为了进一步利用文本中嵌入的语言信息,我们还将MoE层纳入SC-MoE的解码器中。此外,我们在编码器和解码器的每个MoE层中引入路由器,实现更好的识别性能。实验结果表明,与基线相比,SC-MoE显着提高了CS ASR性能,且具有可比较的计算效率。
- 图表
- 解决问题本论文旨在提出一种基于Switch-Conformer的MoE系统,名为SC-MoE,用于统一流式和非流式的混合语言自动语音识别,解决语音识别中的混合语言问题。
- 关键思路论文提出了一种流式MoE层,包括三个语言专家,分别对应普通话、英语和空白,并配备了一个语言识别网络作为编码器中的路由器,实现了实时流式混合语言自动语音识别系统。此外,还将MoE层引入到解码器中,以进一步利用文本中嵌入的语言信息。
- 其它亮点实验结果表明,SC-MoE相对于基线显著提高了混合语言自动语音识别的性能,并具有可比较的计算效率。值得关注的是,本论文使用了开源数据集,并在实验中引入了路由器以进一步提高性能。
- 近期在这个领域中,还有一些相关的研究,例如《Code-Switching Language Model Pre-training for End-to-End Code-Switching Speech Recognition》、《End-to-End Code-Switching Speech Recognition with Self-Training and Pre-Training》等。
沙发等你来抢
去评论
评论
沙发等你来抢