- 简介虽然连接主义时间分类(CTC)模型在自动语音识别(ASR)流水线中提供了最先进的准确性,但它们的性能受到基于CPU的束搜索解码的限制。我们引入了一个GPU加速的加权有限状态转换器(WFST)束搜索解码器,与当前的CTC模型兼容。它增加了流水线吞吐量,减少了延迟,支持流式推理,并且还支持通过即时组合实现话语特定单词增强等高级功能。我们提供了基于DLPack的Python绑定,以便与基于Python的机器学习框架轻松使用,网址为https://github.com/nvidia-riva/riva-asrlib-decoder。我们对离线和在线场景进行了评估,证明它是CTC模型的最快束搜索解码器。在离线场景中,它的吞吐量比当前最先进的CPU解码器高出多达7倍,在在线流式场景中,它的延迟几乎降低了8倍,而单词错误率相同或更低。
- 图表
- 解决问题解决问题:论文旨在解决使用CPU进行CTC模型的beam搜索解码时性能受限的问题,提出了一种GPU加速的WFST beam搜索解码器,以提高ASR管道的吞吐量和降低延迟。
- 关键思路关键思路:论文提出了一种GPU加速的WFST beam搜索解码器,可以提高CTC模型的解码速度和准确性,支持流式推理和高级功能,如即时组合的话语特定词语加权。
- 其它亮点其他亮点:论文提供了预构建的DLPack-based Python绑定,方便与基于Python的机器学习框架配合使用。实验结果表明,在离线和在线场景中,该解码器比当前最先进的CPU解码器具有更高的吞吐量和更低的延迟,并且具有相同或更好的词错误率。
- 相关研究:近期的相关研究包括“Streamable Speech Recognition with Sequence-to-Sequence Models”(A. Chan等人,谷歌),以及“End-to-End Speech Recognition with the Transformer”(A. Mohamed等人,IBM)。
GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition
沙发等你来抢
去评论
评论
沙发等你来抢