Transducers with Pronunciation-aware Embeddings for Automatic Speech Recognition

简介

本文提出了一种带有发音感知嵌入的转录器（PET）。与常规的转录器不同，PET模型的解码器嵌入包括共享组件，用于拥有相同或相似发音的文本标记。通过在汉语和韩语的多个数据集上进行的实验，我们展示了PET模型相对于常规转录器在语音识别准确性上的持续改进。我们的研究还揭示了一个我们称之为“错误链反应”的现象。错误不均匀地分布在话语中，而是往往聚集在一起，后续的错误通常跟随早期的错误。我们的分析表明，PET模型通过大幅降低模型在先前错误后生成额外错误的可能性，有效地缓解了这个问题。我们的实现将与NeMo工具包一起开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

PET模型试图解决传统Transducer模型中的一个问题：不同token的解码器嵌入是独立训练的，没有考虑到相似发音的token之间的共享特征。该论文验证了PET模型在中文和韩文语音识别中的有效性，并发现了一个新现象：错误链反应。
关键思路

PET模型的关键思路是将相似发音的token的解码器嵌入进行共享，从而提高语音识别的准确性。此外，PET模型有效缓解了错误链反应现象。
其它亮点

论文使用多个数据集在中文和韩文语音识别中验证了PET模型的有效性，并在实验中发现了错误链反应现象。此外，该论文的代码将会开源。
相关研究

近期的相关研究包括：《Listen, Attend and Spell (LAS) with Pronunciation and Language Model Integration for Mandarin Speech Recognition》、《Exploring Token-level Pronunciation Features for Mandarin ASR with CTC-CRF》等。

Transducers with Pronunciation-aware Embeddings for Automatic Speech Recognition

提问交流

提问交流