- 简介在语音识别应用中,识别上下文特定的罕见单词(如专有名词)非常重要。树约束指针生成器(TCPGen)已经显示出在这方面具有潜力,它通过前缀树有效地偏置这些单词。虽然原始的TCPGen依赖于基于字形的编码,但我们建议通过使用音素感知编码来扩展它,以更好地识别发音不寻常的单词。由于TCPGen将单词处理为子词单元,因此我们建议通过使用音素和子词之间的对齐来获得子词级别的音素感知编码。此外,我们建议将CTC的音素级预测注入到TCPGen的查询中,以便模型更好地解释音素感知编码。我们使用TCPGen进行了RNN转录器的ASR实验。我们观察到,在英语LibriSpeech和日语CSJ数据集上,建议的音素感知编码表现优于普通的基于字形的编码,表明我们的方法在语言上具有鲁棒性。
-
- 图表
- 解决问题本论文旨在解决语音识别中识别上下文特定的罕见单词的问题,尤其是专有名词等,通过使用基于前缀树的Tree-constrained Pointer Generator(TCPGen)有效地进行偏置。同时,论文提出了扩展TCPGen的方案,使用音素感知编码来更好地识别发音不寻常的单词。
- 关键思路论文的关键思路是将音素感知编码与TCPGen相结合,通过音素和子词之间的对齐来获得子词级别的音素感知编码,并将CTC的音素级预测注入到TCPGen的查询中,以更好地解释音素感知编码。
- 其它亮点论文在英语LibriSpeech和日语CSJ数据集上进行了ASR实验,证明了所提出的音素感知编码在语言上的鲁棒性。此外,论文还提供了开源代码。
- 在这个领域中,最近的相关研究包括:1. 基于子词单元的语音识别;2. 使用前缀树的语音识别;3. 基于CTC的语音识别。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流