Sentence-Level Multimodal and Language-Agnostic Representations

解决问题:本文旨在解决多语言和多模态语言表示的问题,提出了一种新的多语言和多模态的句子嵌入空间SONAR,并通过相似性搜索任务证明其性能优于现有的句子嵌入模型。

关键思路:本文提出了一个单一的文本编码器SONAR,可以覆盖200种语言,并且可以将语音片段嵌入到相同的SONAR嵌入空间中。此外,本文还提供了一个文本解码器,可以用于200种语言的文本到文本和语音到文本机器翻译。相比于现有的句子嵌入模型,本文的SONAR模型在多语言和多模态的相似性搜索任务中表现更好。

其他亮点:本文的实验设计包括使用语音转录数据训练语言特定的语音编码器,并使用相似性搜索任务评估模型性能。此外,本文提供了一个文本解码器,可以进行零样本语言和模态组合的文本到文本和语音到文本机器翻译。虽然使用了固定大小的瓶颈表示,但本文的文本到文本翻译结果与现有的NLLB~1B模型相当,零样本语音到文本翻译结果也优于现有的强监督基线模型Whisper。

相关研究:近期其他相关的研究包括:

  • "LASER: Multi-language Sentence Embeddings for Zero-shot Cross-lingual Transfer and Beyond" by Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong, and Paco Guzman, Facebook AI Research.
  • "LabSE: A Language-Agnostic BERT Sentence Embedding Enhanced with Linguistic Knowledge" by Holger Schwenk, Guillaume Wenzek, and Julien Maudet, Facebook AI Research.

论文摘要:我们介绍了SONAR,一个新的多语言和多模态的固定大小的句子嵌入空间。我们的单一文本编码器覆盖了200种语言,在xsim和xsim++多语言相似度搜索任务中,明显优于现有的句子嵌入,如LASER3和LabSE。语音片段可以使用特定语言的语音编码器嵌入到同一SONAR嵌入空间中,这些编码器在师生设置下使用语音转录数据进行训练。我们的编码器在相似度搜索任务上优于现有的语音编码器。我们还提供了200种语言的文本解码器,这使我们能够执行文本到文本和语音到文本的机器翻译,包括零样本语言和模态组合。尽管存在固定大小的瓶颈表示,我们的文本到文本结果与最先进的NLLB~1B模型相比具有竞争力。我们的零样本语音到文本翻译结果与强有力的监督基线(如Whisper)相比表现良好。

内容中包含的图片若涉及版权问题,请及时与我们联系删除