- 简介本文介绍了NAIST在IWSLT 2024评估活动的同时翻译赛道中提交的成果,包括英语到{德语、日语、中文}的语音转文本翻译和英语到日语的语音转语音翻译。我们开发了一个多语言端到端语音转文本翻译模型,结合了两个预训练语言模型HuBERT和mBART。我们使用了两种解码策略(Local Agreement和AlignAtt)对该模型进行了训练。由于在以前的模型中,Local Agreement的表现优于AlignAtt,因此我们提交的模型采用了Local Agreement策略。我们的语音转语音翻译方法是以上述语音转文本模型为基础,再加上一个增量文本转语音模块,其中包括一个音素估计模型、一个并行声学模型和一个并行WaveGAN声码器。我们通过将Transformer架构与AlignAtt策略应用于估计模型,改进了增量TTS。结果表明,我们升级的TTS模块有助于提高系统性能。
-
- 图表
- 解决问题本论文旨在解决IWSLT 2024 Evaluation Campaign中的英语到德语、日语、中文的语音翻译和英语到日语的语音转换问题。同时,论文还试图验证使用多语言端到端语音翻译模型的可行性。
- 关键思路本论文的关键思路是将两个预训练的语言模型HuBERT和mBART结合起来,使用局部一致性(Local Agreement)和AlignAtt两种解码策略进行训练。在语音转换方面,论文采用了基于增量的文本到语音(TTS)模块,该模块包括音素估计模型、并行声学模型和并行WaveGAN声码器。此外,论文还采用了Transformer架构和AlignAtt策略来改进增量TTS模块。
- 其它亮点论文的实验结果表明,使用多语言端到端语音翻译模型可以在不同语言对的翻译任务中获得较好的性能。此外,使用局部一致性策略可以在一定程度上提高模型的性能。在语音转换方面,论文提出的基于增量的TTS模块可以有效地提高系统的性能。
- 在该领域的相关研究包括使用深度学习模型进行语音翻译和语音转换的研究,例如《End-to-End Speech Translation with Knowledge Distillation》和《Neural Speech Synthesis with Transformer Network》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流