Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask

2024年06月14日
  • 简介
    本文提出了一种新颖的非自回归(NAR)基于块的注意力掩码解码器(AMD),它可以在Conformer ASR系统中灵活地平衡性能和效率的权衡。AMD在连续的输出标签块内执行并行的NAR推断,这些标签块使用注意力掩码进行隐藏,同时在块之间进行从左到右的AR预测和历史上下文融合。设计了一个波束搜索算法来利用CTC、AR解码器和AMD概率的动态融合。在LibriSpeech-100hr语料库上的实验表明,三部分解码器包括AMD模块产生了最大的解码加速比,比基线CTC+AR解码提高了1.73倍,同时在测试集上没有统计学显著的词错误率(WER)增加。当以相同的解码实时因子运行时,相对于CTC+AR基线,可以获得高达0.7%和0.3%的统计显著WER降低(分别为5.3%和6.1%的绝对值)。
  • 图表
  • 解决问题
    论文旨在为Conformer ASR系统提供一种平衡性能和效率的解码器,解决非自回归解码器的速度较慢的问题。
  • 关键思路
    论文提出了一种新的非自回归的基于块的注意力掩码解码器,称为AMD,可以在块内进行并行的非自回归推理,同时在块之间进行从左到右的自回归预测和历史上下文融合。
  • 其它亮点
    实验结果表明,与基线CTC + AR解码相比,使用AMD模块的三部分解码器可以最大化解码速度提高1.73倍,同时不会在测试集上产生统计显着的词错误率(WER)增加。当以相同的解码实时因子操作时,相对于CTC + AR基线,统计显着的WER降低了最多0.7%和0.3%绝对(5.3%和6.1%相对)。
  • 相关研究
    最近的相关研究包括:1. Non-autoregressive end-to-end speech recognition with connectionist temporal classification and attention-based sequence-to-sequence modeling. 2. Non-Autoregressive End-to-End Speech Recognition with Latent-Variable Transformer.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论