Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation
近来,文本和语音表示学习成功大幅提升了许多与语言与语音相关的任务。但是,现有方法只能从文本或语音的一种输入模态的数据中学习,而许多常见的跨模态的任务,例如语音翻译,则需要统一的声音和文本表示。
为解决这个问题,我们提出了一种融合语音和文本的语言模型Fused Acoustic and Text Masked Language Model(FAT-MLM),该模型可以学习统一的语音和文本表示。在这种跨模态表示学习框架下,我们进一步提出了融合语音和文本的端到端语音翻译模型FAT-ST。在三个翻译方向上进行的实验表明,我们在FAT-MLM预训练基础上的语音翻译模型可以显着提高翻译质量(+5.90 BLEU)。
论文链接:http://proceedings.mlr.press/v139/zheng21a/zheng21a.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢