Whispy: Adapting STT Whisper Models to Real-Time Environments

简介

近来，大型通用变压器模型已成为语音分析领域的支柱。其中，Whisper在语音识别、翻译、语言识别和语音活动检测等相关任务中取得了最先进的结果。然而，Whisper模型并不适用于实时条件，这一限制使其不适用于大量实际应用。本文介绍了Whispy，这是一个旨在为Whisper预训练模型带来实时能力的系统。由于进行了一系列架构优化，Whispy能够消耗实时音频流并生成高水平、连贯的语音转录，同时仍保持低计算成本。我们评估了我们的系统在大量公开可用的语音数据集上的性能，研究了Whispy引入的转录机制对Whisper输出的影响。实验结果表明，Whispy在鲁棒性、及时性和准确性方面表现优异。
图表
解决问题

Whispy论文试图将Whisper预训练模型转化为实时语音转录系统，解决Whisper模型无法在实时条件下使用的问题。
关键思路

Whispy通过一系列架构优化，使得Whisper模型能够消耗实时音频流并生成高水平、连贯的语音转录，同时仍保持低计算成本。
其它亮点

论文在公共语音数据集上评估了Whispy系统的性能，展示了Whispy在鲁棒性、及时性和准确性方面的优越性。同时，论文还介绍了Whispy的转录机制如何影响Whisper输出。
相关研究

最近的相关研究包括使用transformer模型进行语音识别的DeepSpeech 2和使用卷积神经网络进行语音识别的Wav2Letter。

Whispy: Adapting STT Whisper Models to Real-Time Environments

评论