- 简介我们介绍了DiffuseST,这是一个低延迟的直接语音到语音翻译系统,能够在将多种源语言翻译成英语的同时零-shot保留输入说话者的声音。我们对该架构的合成器组件进行了实验,将基于Tacotron的合成器与一种新颖的基于扩散的合成器进行了比较。我们发现,相比Tacotron合成器,基于扩散的合成器可以将MOS和PESQ音频质量指标各提高23\%,说话者相似度提高5\%,同时保持可比的BLEU分数。尽管参数数量超过两倍,扩散合成器具有更低的延迟,使整个模型运行速度超过实时的5倍。
-
- 图表
- 解决问题DiffuseST论文旨在解决直接语音翻译中保留输入说话者声音的问题,并将多种源语言翻译为英语。
- 关键思路DiffuseST使用扩散合成器与Tacotron合成器进行比较,发现扩散合成器可以提高音频质量指标并保持可比的BLEU分数,同时具有更低的延迟。
- 其它亮点DiffuseST使用了扩散合成器来提高音频质量,并在MOS、PESQ和说话者相似性方面都取得了显著的改进。此外,DiffuseST具有更低的延迟,比实时运行快5倍以上。
- 与DiffuseST相关的研究包括:1.《End-to-End Speech Translation with Knowledge Distillation》;2.《Direct Speech-to-Speech Translation with a Sequence-to-Sequence Model》;3.《Speech Translation with Conditional Sequence-to-Sequence Models》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流