4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders

向作者提问

NEW

简介

自动语音识别（E2E-ASR）可以分为几种网络架构，例如连接主义时间分类（CTC）、循环神经网络传递器（RNN-T）、基于注意力的编码器-解码器和掩码预测模型。每种网络架构都有优缺点，导致从业者根据应用需求在这些不同模型之间切换。我们提出了一种联合建模方案，其中四个解码器（CTC、RNN-T、注意力和掩码预测）共享相同的编码器，我们称之为4D建模。4D模型使用多任务学习进行训练，这将带来模型正则化并最大化模型的鲁棒性，因为它们具有互补的属性。为了有效地训练4D模型，我们引入了一个两阶段训练策略，以稳定多任务学习。此外，我们提出了三种新的一遍束搜索算法，通过组合三个解码器（CTC、RNN-T和注意力）进一步提高性能。这三个束搜索算法在使用哪个解码器作为主要解码器方面有所不同。我们仔细评估了与每个算法相关的性能和计算折衷。实验结果表明，联合训练的4D模型优于仅使用单个解码器训练的E2E-ASR模型。此外，我们证明了所提出的一遍束搜索算法优于先前提出的CTC /注意力解码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过提出一种新的联合建模方案，解决端到端自动语音识别（E2E-ASR）中的多种网络架构之间的优缺点问题。同时，提出了三种新的一遍束搜索算法来进一步提高性能。
关键思路

本文提出了一种4D建模方案，其中四个解码器（CTC、RNN-T、attention和mask-predict）共享同一编码器，并使用多任务学习进行训练，从而实现模型正则化和最大化模型鲁棒性。此外，引入了一个两阶段训练策略来稳定多任务学习。
其它亮点

本文提出的4D模型在性能上优于仅使用单个解码器训练的E2E-ASR模型。此外，提出的三种一遍束搜索算法中的每种算法都有其性能和计算折衷。实验表明，这些算法进一步提高了E2E-ASR性能。
相关研究

最近的相关研究包括：1.基于CTC的E2E-ASR模型；2.基于注意力机制的E2E-ASR模型；3.基于RNN-T的E2E-ASR模型。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问