NAIST Simultaneous Speech Translation System for IWSLT 2024

向作者提问

NEW

简介

本文介绍了NAIST在IWSLT 2024评估活动的同时翻译赛道中提交的成果，包括英语到{德语、日语、中文}的语音转文本翻译和英语到日语的语音转语音翻译。我们开发了一个多语言端到端语音转文本翻译模型，结合了两个预训练语言模型HuBERT和mBART。我们使用了两种解码策略（Local Agreement和AlignAtt）对该模型进行了训练。由于在以前的模型中，Local Agreement的表现优于AlignAtt，因此我们提交的模型采用了Local Agreement策略。我们的语音转语音翻译方法是以上述语音转文本模型为基础，再加上一个增量文本转语音模块，其中包括一个音素估计模型、一个并行声学模型和一个并行WaveGAN声码器。我们通过将Transformer架构与AlignAtt策略应用于估计模型，改进了增量TTS。结果表明，我们升级的TTS模块有助于提高系统性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决IWSLT 2024 Evaluation Campaign中的英语到德语、日语、中文的语音翻译和英语到日语的语音转换问题。同时，论文还试图验证使用多语言端到端语音翻译模型的可行性。
关键思路

本论文的关键思路是将两个预训练的语言模型HuBERT和mBART结合起来，使用局部一致性（Local Agreement）和AlignAtt两种解码策略进行训练。在语音转换方面，论文采用了基于增量的文本到语音（TTS）模块，该模块包括音素估计模型、并行声学模型和并行WaveGAN声码器。此外，论文还采用了Transformer架构和AlignAtt策略来改进增量TTS模块。
其它亮点

论文的实验结果表明，使用多语言端到端语音翻译模型可以在不同语言对的翻译任务中获得较好的性能。此外，使用局部一致性策略可以在一定程度上提高模型的性能。在语音转换方面，论文提出的基于增量的TTS模块可以有效地提高系统的性能。
相关研究

在该领域的相关研究包括使用深度学习模型进行语音翻译和语音转换的研究，例如《End-to-End Speech Translation with Knowledge Distillation》和《Neural Speech Synthesis with Transformer Network》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问