- 简介本文介绍了Simul-Whisper,它利用了Whisper跨注意力中嵌入的时间对齐信息,引导自回归解码并实现基于分块的流式自动语音识别,而无需对预训练模型进行任何微调。此外,我们观察到在分块边界处截断的单词对解码结果的负面影响,并提出了一种基于集成和火的截断检测模型来解决这个问题。多种语言和Whisper架构上的实验表明,Simul-Whisper在块大小为1秒时,平均绝对单词错误率仅降低了1.46%,显著优于当前最先进的基线模型。
-
- 图表
- 解决问题Simul-Whisper论文旨在解决Whisper模型在流式语音识别中的应用问题。
- 关键思路Simul-Whisper使用Whisper交叉注意力中嵌入的时间对齐来指导自回归解码,实现基于块的流式ASR。同时,论文提出了一种基于积分和火的截断检测模型来解决块边界截断词的负面影响。
- 其它亮点论文的实验结果表明,Simul-Whisper在块大小为1秒时,平均绝对词错误率下降仅为1.46%,明显优于当前最先进的基线。此外,论文还介绍了多种语言和Whisper架构的实验结果,以及开源代码。
- 最近在该领域的相关研究包括:《End-to-End Streaming Speech Recognition with Connectionist Temporal Classification》、《Streaming End-to-End Speech Recognition for Mobile Devices》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流