- 简介本文提出了一种新颖的非自回归(NAR)基于块的注意力掩码解码器(AMD),可在Conformer ASR系统中灵活平衡性能和效率的权衡。AMD在使用注意力掩码隐藏的连续输出标签块内执行并行的NAR推理,同时在块之间进行从左到右的AR预测和历史上下文融合。设计了一种波束搜索算法,以利用CTC、AR解码器和AMD概率的动态融合。在LibriSpeech-100hr语料库上的实验表明,三部分解码器包含AMD模块,相对于基线CTC+AR解码,可产生最大的解码加速比为1.73倍,同时在测试集上不会导致统计学显著的词错误率(WER)增加。当以相同的解码实时因子运行时,相对于CTC+AR基线,可获得高达0.7%和0.3%绝对值(5.3%和6.1%相对值)的统计显著WER降低。
- 图表
- 解决问题本文提出了一种新的非自回归(NAR)基于块的注意力掩码解码器(AMD),旨在为Conformer ASR系统灵活平衡性能和效率的权衡。该解码器在连续的输出标签块内执行并行的NAR推断,同时在块之间进行从左到右的AR预测和历史上下文融合,以提高解码速度和识别准确性。
- 关键思路该模型使用非自回归的方法进行ASR解码,通过注意力掩码来隐藏连续的输出标签块,从而提高解码速度。同时,通过左右AR预测和历史上下文融合,保证解码准确性。
- 其它亮点本文提出的AMD模块可以在不影响准确性的情况下提高解码速度,相比于基于CTC+AR的解码方式,最大解码速度提高了1.73倍。在相同的解码时间因素下,相对于基线,本文的模型在LibriSpeech-100hr数据集上取得了0.7%和0.3%的绝对WER降低。
- 最近的相关研究包括使用自回归方法的ASR解码器,以及使用注意力掩码的非自回归解码器。
沙发等你来抢
去评论
评论
沙发等你来抢