Sentence-Level Multimodal and Language-Agnostic Representations

P Duquenne, H Schwenk, B Sagot
[Meta AI & Inria]

句子级多模态语言无关表示

  • 提出SONAR,一个新的多语言多模态句子嵌入空间,覆盖200种语言,在相似度搜索任务上明显优于之前的工作,如LASER3和LaBSE。
  • 使用一个编-解码器方法,初始化自一个预训练的NLLB模型,与LASER等之前工作不同,该方法结合了翻译、自编码、去噪和MSE损失目标,这种组合防止了坍缩,并提高了解码性能。
  • 即使用固定大小的瓶颈,自编码任务也可以解决得很好,所以瓶颈不应该被视为硬性限制。
  • 翻译目标鼓励语言无关的表示,但是一些自编码是需要的,以提高解码性能,过多的自编码则会损害语言无关性。
  • 通过老师-学生训练将文本嵌入空间扩展到语音,效果很好,实现了跨模态相似性搜索和零资源语音翻译。
  • 语音和文本嵌入高度兼容,从将语音解码成外语文本可以看出,突出了表示的语言无关性质。
  • SONAR模块化的编-解码器方法允许扩展到200种语言,只需要单个编码器和解码器,与之前每种语言对需要独立模块的工作不同。

动机:构建一个多语言和多模态的固定大小句子嵌入空间,以提高句子表示性能,能进行文本到文本和语音到文本的机器翻译。
方法:采用编-解码器的方法来构建句子嵌入空间,并使用师生学习策略来训练语音编码器通,过不同的训练目标,包括翻译、自编码和去噪等,来学习多语言句子嵌入空间。
优势:该方法在多语言相似性搜索任务中明显优于现有的句子嵌入方法,并在语音到文本翻译任务中表现出色,此外,该方法还能进行零样本语言和模态组合的翻译,且结果与最先进的模型相媲美。

一句话总结: 介绍了SONAR模型,一个多语言和多模态的句子嵌入空间,通过编-解码器和师生学习方法进行训练,具有优秀的性能和零样本翻译能力。

https://arxiv.org/abs/2308.11466 

内容中包含的图片若涉及版权问题,请及时与我们联系删除