Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation

2024年06月14日
  • 简介
    我们介绍了DiffuseST,这是一个低延迟的直接语音到语音翻译系统,能够在将多种源语言翻译成英语的同时零-shot保留输入说话者的声音。我们对该架构的合成器组件进行了实验,将基于Tacotron的合成器与一种新颖的基于扩散的合成器进行了比较。我们发现,相比Tacotron合成器,基于扩散的合成器可以将MOS和PESQ音频质量指标各提高23\%,说话者相似度提高5\%,同时保持可比的BLEU分数。尽管参数数量超过两倍,扩散合成器具有更低的延迟,使整个模型运行速度超过实时的5倍。
  • 作者讲解
  • 图表
  • 解决问题
    DiffuseST论文旨在解决直接语音翻译中保留输入说话者声音的问题,并将多种源语言翻译为英语。
  • 关键思路
    DiffuseST使用扩散合成器与Tacotron合成器进行比较,发现扩散合成器可以提高音频质量指标并保持可比的BLEU分数,同时具有更低的延迟。
  • 其它亮点
    DiffuseST使用了扩散合成器来提高音频质量,并在MOS、PESQ和说话者相似性方面都取得了显著的改进。此外,DiffuseST具有更低的延迟,比实时运行快5倍以上。
  • 相关研究
    与DiffuseST相关的研究包括:1.《End-to-End Speech Translation with Knowledge Distillation》;2.《Direct Speech-to-Speech Translation with a Sequence-to-Sequence Model》;3.《Speech Translation with Conditional Sequence-to-Sequence Models》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问