Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation

简介

我们介绍了DiffuseST，这是一个低延迟的直接语音到语音翻译系统，能够在将多种源语言翻译成英语的同时零-shot保留输入说话者的声音。我们对该架构的合成器组件进行了实验，将基于Tacotron的合成器与一种新颖的基于扩散的合成器进行了比较。我们发现，相比Tacotron合成器，基于扩散的合成器可以将MOS和PESQ音频质量指标各提高23\%，说话者相似度提高5\%，同时保持可比的BLEU分数。尽管参数数量超过两倍，扩散合成器具有更低的延迟，使整个模型运行速度超过实时的5倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

DiffuseST论文旨在解决直接语音翻译中保留输入说话者声音的问题，并将多种源语言翻译为英语。
关键思路

DiffuseST使用扩散合成器与Tacotron合成器进行比较，发现扩散合成器可以提高音频质量指标并保持可比的BLEU分数，同时具有更低的延迟。
其它亮点

DiffuseST使用了扩散合成器来提高音频质量，并在MOS、PESQ和说话者相似性方面都取得了显著的改进。此外，DiffuseST具有更低的延迟，比实时运行快5倍以上。
相关研究

与DiffuseST相关的研究包括：1.《End-to-End Speech Translation with Knowledge Distillation》；2.《Direct Speech-to-Speech Translation with a Sequence-to-Sequence Model》；3.《Speech Translation with Conditional Sequence-to-Sequence Models》。

Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation

提问交流

提问交流