Transducers with Pronunciation-aware Embeddings for Automatic Speech Recognition

2024年04月04日
  • 简介
    本文提出了一种带有发音感知嵌入的转录器(PET)。与常规的转录器不同,PET模型的解码器嵌入包括共享组件,用于拥有相同或相似发音的文本标记。通过在汉语和韩语的多个数据集上进行的实验,我们展示了PET模型相对于常规转录器在语音识别准确性上的持续改进。我们的研究还揭示了一个我们称之为“错误链反应”的现象。错误不均匀地分布在话语中,而是往往聚集在一起,后续的错误通常跟随早期的错误。我们的分析表明,PET模型通过大幅降低模型在先前错误后生成额外错误的可能性,有效地缓解了这个问题。我们的实现将与NeMo工具包一起开源。
  • 作者讲解
  • 图表
  • 解决问题
    PET模型试图解决传统Transducer模型中的一个问题:不同token的解码器嵌入是独立训练的,没有考虑到相似发音的token之间的共享特征。该论文验证了PET模型在中文和韩文语音识别中的有效性,并发现了一个新现象:错误链反应。
  • 关键思路
    PET模型的关键思路是将相似发音的token的解码器嵌入进行共享,从而提高语音识别的准确性。此外,PET模型有效缓解了错误链反应现象。
  • 其它亮点
    论文使用多个数据集在中文和韩文语音识别中验证了PET模型的有效性,并在实验中发现了错误链反应现象。此外,该论文的代码将会开源。
  • 相关研究
    近期的相关研究包括:《Listen, Attend and Spell (LAS) with Pronunciation and Language Model Integration for Mandarin Speech Recognition》、《Exploring Token-level Pronunciation Features for Mandarin ASR with CTC-CRF》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问