SeamlessM4T-Massively Multilingual & Multimodal Machine Translation
解决问题:本篇论文旨在解决语音翻译中的问题,尤其是实现多语言和多模态的无缝翻译。论文提出了SeamlessM4T模型,可以支持语音到语音、语音到文本、文本到语音、文本到文本的翻译,涵盖了100种语言。
关键思路:SeamlessM4T模型的关键思路是利用1百万小时的开放语音音频数据,学习自监督语音表示,并创建一个多模态语音翻译语料库,该语料库包含自动对齐的语音翻译。然后,将筛选和合并的人工标记和伪标记数据与自动对齐的语音翻译结合起来,开发了第一个多语言系统,可以翻译英语的语音和文本。在FLEURS数据集上,SeamlessM4T在多个目标语言的翻译中取得了20% BLEU的提高,比之前的最新技术水平高。与强大的级联模型相比,SeamlessM4T在语音到文本翻译中提高了1.3 BLEU点,在语音到语音翻译中提高了2.6 ASR-BLEU点。在鲁棒性测试中,该系统在语音到文本任务中对抗背景噪声和说话人变化的表现优于当前的最新技术水平。最后,该论文的所有贡献都在https://github.com/facebookresearch/seamless_communication上开源。
其他亮点:该论文的实验设计非常完整,使用了大量的开放数据集,并且开源了代码,可以为后续的研究提供很好的基础。此外,该论文还特别关注了性别偏见和翻译安全等问题,这也是当前研究领域的热点问题。这些工作都值得进一步深入研究。
相关研究:近期其他相关的研究还包括:1)"Multilingual Speech-to-Speech Translation with Shared Encoder and Attentional Decoder",作者为Felix Wu等,发表于ACL 2019;2)"Unsupervised Multilingual and Cross-lingual Speech Representation Learning",作者为Ju-Chieh Chou等,发表于ICASSP 2021;3)"End-to-End Speech Translation with Knowledge Distillation",作者为Jian Gong等,发表于AAAI 2021。
论文摘要:这篇文章介绍了一种名为SeamlessM4T的单一模型,支持多种语音和文本翻译,包括语音到语音、语音到文本、文本到语音和文本到文本,以及自动语音识别,支持多达100种语言。为了构建这个模型,作者利用了100万小时的开放语音音频数据,使用w2v-BERT 2.0学习了自我监督语音表示。随后,他们创建了一个多模态语料库,自动对齐语音翻译,并与人工标注和伪标注数据过滤和组合,开发出了第一个能够翻译英语的多语言系统,支持语音和文本。在FLEURS测试中,SeamlessM4T在多种目标语言的翻译方面取得了新的标准,直接从语音到文本翻译的BLEU值比之前的SOTA提高了20%。与强级联模型相比,SeamlessM4T在语音到文本翻译中将英语的翻译质量提高了1.3个BLEU点,在语音到语音翻译中提高了2.6个ASR-BLEU点。在韧性测试中,该系统在语音到文本任务中的背景噪声和说话者变化方面表现更好,比当前的SOTA模型更好。最后,作者评估了SeamlessM4T的性别偏见和毒性,以评估翻译的安全性。所有这些工作的贡献都在https://github.com/facebookresearch/seamless_communication上开源。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢