- 简介现有研究表明,自动语音识别(ASR)模型可以从额外的上下文(例如联系人列表、用户指定的词汇)中受益。上下文可以更好地识别罕见单词和命名实体。在这项工作中,我们提出了两种简单而有效的技术来改进上下文感知的ASR模型。首先,我们在编码器的早期阶段注入上下文,而不仅仅是在它们的最后一层。其次,为了在训练期间强制模型利用上下文,我们用替代拼写扰动参考转录,使模型学习依赖上下文进行正确预测。在LibriSpeech上,我们的技术相结合相对于没有偏置和浅层融合,将罕见单词错误率降低了60%和25%,达到了新的最先进的性能水平。在SPGISpeech和真实世界的数据集ConEC上,我们的技术也相对于基线取得了良好的改进。
- 图表
- 解决问题论文旨在解决自动语音识别(ASR)模型在识别罕见单词和命名实体时的问题,提出了注入上下文到编码器早期阶段和通过扰动参考转录来强制模型利用上下文的两种简单而有效的技术。
- 关键思路论文提出了两种注入上下文到编码器早期阶段和通过扰动参考转录来强制模型利用上下文的技术,以提高上下文感知ASR模型的性能。
- 其它亮点论文在LibriSpeech、SPGISpeech和ConEC数据集上进行了实验,证明了这两种技术的有效性。相比于无偏置和浅层融合,两种技术相对地将罕见单词错误率降低了60%和25%,在LibriSpeech数据集上取得了新的最优性能。论文的代码已经公开。
- 最近在这个领域中,有一些相关研究,例如:Contextualized Word Embeddings Improve Chinese Named Entity Recognition with CRF-RNN、Contextualized Word Embeddings for Sequence Labeling and Text Classification、Contextualized Word Embeddings for Machine Translation等。
沙发等你来抢
去评论
评论
沙发等你来抢