- 简介本文提出了一种带有发音感知嵌入的转录器(PET)。与常规的转录器不同,PET模型的解码器嵌入包括共享组件,用于拥有相同或相似发音的文本标记。通过在汉语和韩语的多个数据集上进行的实验,我们展示了PET模型相对于常规转录器在语音识别准确性上的持续改进。我们的研究还揭示了一个我们称之为“错误链反应”的现象。错误不均匀地分布在话语中,而是往往聚集在一起,后续的错误通常跟随早期的错误。我们的分析表明,PET模型通过大幅降低模型在先前错误后生成额外错误的可能性,有效地缓解了这个问题。我们的实现将与NeMo工具包一起开源。
-
- 图表
- 解决问题PET模型试图解决传统Transducer模型中的一个问题:不同token的解码器嵌入是独立训练的,没有考虑到相似发音的token之间的共享特征。该论文验证了PET模型在中文和韩文语音识别中的有效性,并发现了一个新现象:错误链反应。
- 关键思路PET模型的关键思路是将相似发音的token的解码器嵌入进行共享,从而提高语音识别的准确性。此外,PET模型有效缓解了错误链反应现象。
- 其它亮点论文使用多个数据集在中文和韩文语音识别中验证了PET模型的有效性,并在实验中发现了错误链反应现象。此外,该论文的代码将会开源。
- 近期的相关研究包括:《Listen, Attend and Spell (LAS) with Pronunciation and Language Model Integration for Mandarin Speech Recognition》、《Exploring Token-level Pronunciation Features for Mandarin ASR with CTC-CRF》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流