- 简介近年来,语音到语音翻译(S2ST)领域的研究兴趣和进展日益增长,旨在将一种语言的话语翻译成另一种语言。本文提出了一种多任务语音语言模型(MSLM),它是一个仅有解码器的语音语言模型,通过多任务训练来实现。我们的模型不依赖于文本训练数据,能够支持多语言的S2ST,并保留说话人的语音风格。
- 图表
- 解决问题该论文旨在提出一种多任务语音语言模型(MSLM),用于支持多语言语音到语音的翻译,同时保留说话人的风格。这项工作试图解决语音翻译中的数据稀缺问题。
- 关键思路该论文提出了一种仅基于解码器的多任务语音语言模型,通过多任务学习来训练模型,从而支持多语言语音到语音的翻译,同时保留说话人的风格。与传统方法不同的是,该模型不依赖于文本数据的训练,而是直接从语音信号中进行学习。
- 其它亮点该论文的亮点在于提出了一种不依赖于文本数据的多语言语音到语音翻译方法,同时保留了说话人的风格。该模型在多个数据集上进行了实验,并且与其他方法进行了比较。实验结果表明,该模型在多语言语音到语音翻译任务上具有很好的性能。
- 近期的相关研究包括:1)《End-to-End Speech-to-Speech Translation with Transformer》;2)《Simultaneous Translation with Flexible Prefix-to-Prefix Models》;3)《Unsupervised Cross-lingual Representation Learning for Speech Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢