- 简介Simultaneous speech-to-speech translation(Simul-S2ST,也称流式语音翻译)可以在接收到流式语音输入时输出目标语音,这对于实时交流至关重要。除了完成语音之间的翻译,Simul-S2ST还需要一个策略来控制模型在语音输入的适当时刻生成相应的目标语音,因此提出了翻译和策略的双重挑战。本文提出了StreamSpeech,这是一个直接的Simul-S2ST模型,它在多任务学习的统一框架中共同学习翻译和同时策略。遵循多任务学习的方法,StreamSpeech可以通过一个“全能”无缝模型执行离线和同时的语音识别、语音翻译和语音合成。在CVSS基准测试中的实验表明,StreamSpeech在离线S2ST和Simul-S2ST任务中均取得了最先进的性能。此外,StreamSpeech能够在同时翻译过程中呈现高质量的中间结果(即ASR或翻译结果),为更全面的实时通信体验提供了可能。
- 图表
- 解决问题论文试图解决实时语音翻译中的翻译和策略控制的双重挑战问题。
- 关键思路论文提出了StreamSpeech模型,它采用多任务学习的方法,统一学习翻译和实时策略控制,实现了离线和实时语音识别、翻译和合成。
- 其它亮点StreamSpeech在CVSS基准测试中表现出色,同时提供高质量的中间结果,为实时通信提供更全面的体验。论文还提供了数据集和代码。
- 最近的相关研究包括:1. Google的Translatotron模型;2. Facebook的Fairseq S2ST模型;3. 百度的SimulTrans模型。
沙发等你来抢
去评论
评论
沙发等你来抢