Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

2024年06月14日
  • 简介
    本文介绍了Simul-Whisper,它利用了Whisper跨注意力中嵌入的时间对齐信息,引导自回归解码并实现基于分块的流式自动语音识别,而无需对预训练模型进行任何微调。此外,我们观察到在分块边界处截断的单词对解码结果的负面影响,并提出了一种基于集成和火的截断检测模型来解决这个问题。多种语言和Whisper架构上的实验表明,Simul-Whisper在块大小为1秒时,平均绝对单词错误率仅降低了1.46%,显著优于当前最先进的基线模型。
  • 作者讲解
  • 图表
  • 解决问题
    Simul-Whisper论文旨在解决Whisper模型在流式语音识别中的应用问题。
  • 关键思路
    Simul-Whisper使用Whisper交叉注意力中嵌入的时间对齐来指导自回归解码,实现基于块的流式ASR。同时,论文提出了一种基于积分和火的截断检测模型来解决块边界截断词的负面影响。
  • 其它亮点
    论文的实验结果表明,Simul-Whisper在块大小为1秒时,平均绝对词错误率下降仅为1.46%,明显优于当前最先进的基线。此外,论文还介绍了多种语言和Whisper架构的实验结果,以及开源代码。
  • 相关研究
    最近在该领域的相关研究包括:《End-to-End Streaming Speech Recognition with Connectionist Temporal Classification》、《Streaming End-to-End Speech Recognition for Mobile Devices》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问