Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

简介

本文介绍了Simul-Whisper，它利用了Whisper跨注意力中嵌入的时间对齐信息，引导自回归解码并实现基于分块的流式自动语音识别，而无需对预训练模型进行任何微调。此外，我们观察到在分块边界处截断的单词对解码结果的负面影响，并提出了一种基于集成和火的截断检测模型来解决这个问题。多种语言和Whisper架构上的实验表明，Simul-Whisper在块大小为1秒时，平均绝对单词错误率仅降低了1.46％，显著优于当前最先进的基线模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Simul-Whisper论文旨在解决Whisper模型在流式语音识别中的应用问题。
关键思路

Simul-Whisper使用Whisper交叉注意力中嵌入的时间对齐来指导自回归解码，实现基于块的流式ASR。同时，论文提出了一种基于积分和火的截断检测模型来解决块边界截断词的负面影响。
其它亮点

论文的实验结果表明，Simul-Whisper在块大小为1秒时，平均绝对词错误率下降仅为1.46％，明显优于当前最先进的基线。此外，论文还介绍了多种语言和Whisper架构的实验结果，以及开源代码。
相关研究

最近在该领域的相关研究包括：《End-to-End Streaming Speech Recognition with Connectionist Temporal Classification》、《Streaming End-to-End Speech Recognition for Mobile Devices》等。

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

提问交流

提问交流