- 简介自动语音识别(E2E-ASR)可以分为几种网络架构,例如连接主义时间分类(CTC)、循环神经网络传递器(RNN-T)、基于注意力的编码器-解码器和掩码预测模型。每种网络架构都有优缺点,导致从业者根据应用需求在这些不同模型之间切换。我们提出了一种联合建模方案,其中四个解码器(CTC、RNN-T、注意力和掩码预测)共享相同的编码器,我们称之为4D建模。4D模型使用多任务学习进行训练,这将带来模型正则化并最大化模型的鲁棒性,因为它们具有互补的属性。为了有效地训练4D模型,我们引入了一个两阶段训练策略,以稳定多任务学习。此外,我们提出了三种新的一遍束搜索算法,通过组合三个解码器(CTC、RNN-T和注意力)进一步提高性能。这三个束搜索算法在使用哪个解码器作为主要解码器方面有所不同。我们仔细评估了与每个算法相关的性能和计算折衷。实验结果表明,联合训练的4D模型优于仅使用单个解码器训练的E2E-ASR模型。此外,我们证明了所提出的一遍束搜索算法优于先前提出的CTC /注意力解码。
-
- 图表
- 解决问题本文旨在通过提出一种新的联合建模方案,解决端到端自动语音识别(E2E-ASR)中的多种网络架构之间的优缺点问题。同时,提出了三种新的一遍束搜索算法来进一步提高性能。
- 关键思路本文提出了一种4D建模方案,其中四个解码器(CTC、RNN-T、attention和mask-predict)共享同一编码器,并使用多任务学习进行训练,从而实现模型正则化和最大化模型鲁棒性。此外,引入了一个两阶段训练策略来稳定多任务学习。
- 其它亮点本文提出的4D模型在性能上优于仅使用单个解码器训练的E2E-ASR模型。此外,提出的三种一遍束搜索算法中的每种算法都有其性能和计算折衷。实验表明,这些算法进一步提高了E2E-ASR性能。
- 最近的相关研究包括:1.基于CTC的E2E-ASR模型;2.基于注意力机制的E2E-ASR模型;3.基于RNN-T的E2E-ASR模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流