Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition

简介

本文提出了一种名为Skipformer的“跳过和恢复”的Conformer架构，用于动态和不均匀地压缩序列输入长度。在Skipformer中，使用中间的CTC输出作为标准将帧分为三组：关键组、跳过组和忽略组。关键组进入下一个Conformer块，其输出与跳过组按照原始时间顺序联合作为最终编码器输出。实验表明，我们的模型在Aishell-1上将输入序列长度缩短了31倍，在Librispeech语料库上缩短了22倍。同时，该模型可以比最近的基准模型实现更好的识别准确度和更快的推理速度。我们的代码已经开源并可在线获取。
图表
解决问题

本论文旨在解决Conformer-based attention models在自动语音识别任务中输入序列长度过长导致计算和内存消耗过大的问题。
关键思路

本文提出了一种名为Skipformer的Conformer架构，通过使用CTC输出将帧分为三组：关键、跳过和忽略，以动态和不均匀的方式压缩序列输入长度。关键组进入下一个Conformer块，其输出与跳过组按原始时间顺序联合为最终编码器输出。
其它亮点

实验结果表明，Skipformer在Aishell-1和Librispeech语料库上将输入序列长度分别缩短了31倍和22倍。与最近的基线模型相比，模型可以实现更好的识别准确性和更快的推理速度。研究者开源了代码。
相关研究

在这个领域中，最近的相关研究包括：1. Conformer模型在语音识别中的应用；2. 基于注意力机制的自动语音识别模型；3. CTC或RNN-T模型中引入空白符号以对齐输入和输出序列。

Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition

评论