- 简介音频-视觉语音识别(AVSR)使用基于唇形的视频来提高在噪声中的表现。由于视频比音频更难获取,AVSR模型的视频训练数据通常限于几千小时。相比之下,像Whisper这样的语音模型是通过数十万小时的数据进行训练的,因此学习到更好的语音转文本解码器。巨大的训练数据差异促使我们将Whisper适应处理视频输入。受Flamingo的启发,它将视觉特征注入语言模型中,我们提出了Whisper-Flamingo,它通过门控交叉注意力将视觉特征集成到Whisper语音识别和翻译模型中。我们的音频-视觉Whisper-Flamingo在嘈杂环境下的英语语音识别和6种语言的En-X翻译中优于仅音频的Whisper。此外,Whisper-Flamingo是一种多功能模型,可以使用一组参数执行所有这些任务,而先前的方法是分别对每种语言进行训练的。
- 图表
- 解决问题本论文试图通过将视觉特征整合到语音识别和翻译模型中,解决视频数据获取困难、训练数据量有限的问题,提高在嘈杂环境中的性能。
- 关键思路Whisper-Flamingo模型将视觉特征与语音识别和翻译模型相结合,使用带门控交叉注意力机制,实现多语言语音识别和翻译任务的端到端训练。
- 其它亮点Whisper-Flamingo模型在嘈杂环境下的语音识别和翻译任务中表现出色,且可以使用一组参数完成所有任务,而无需分别训练每种语言。实验使用了多种数据集,包括En-X翻译和英语语音识别数据集,并开源了代码。
- 相关研究包括Flamingo模型和AVSR模型,以及语音识别和翻译领域的其他相关论文,如《Listen, Attend and Spell》和《Sequence-to-Sequence Models Can Directly Transcribe Foreign Speech》。
沙发等你来抢
去评论
评论
沙发等你来抢