Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment

2024年07月20日
  • 简介
    多语言句子编码器通常是通过训练多语言语言模型来将不同语言的句子映射到共享的语义空间中获得的。因此,它们受到多语言诅咒的影响,即由于参数共享而导致单语表示准确性的损失。多语言句子编码器的另一个局限是单语和跨语言性能之间的权衡。为了训练句子嵌入的跨语言对齐,会扭曲各个语言的语义空间的最佳单语结构,从而损害句子嵌入在单语任务中的实用性。在这项工作中,我们通过模块化训练句子编码器来解决这两个问题,即将单语专业化与跨语言对齐分离。我们首先高效地训练语言特定的句子编码器,以避免语言之间的负面干扰(即诅咒)。然后,我们通过在每个非英语单语编码器上训练跨语言对齐适配器来将所有单语编码器与英语编码器对齐,防止来自第一步的单语专业化的干扰。在这两个步骤中,我们采用机器翻译的近义词数据进行对比学习。在语义文本相似性/相关性和多项选择QA的单语和跨语言评估中,我们的模块化解决方案比多语言句子编码器更有效,特别是对低资源语言有益。
  • 图表
  • 解决问题
    如何解决多语言句子编码器中出现的多语言诅咒和单语和跨语言性能之间的权衡问题?
  • 关键思路
    通过模块化训练句子编码器,将单语言专业化和跨语言对齐分开处理,使用对抗学习和机器翻译的数据进行训练,从而解决多语言诅咒和单语和跨语言性能之间的权衡问题。
  • 其它亮点
    论文的实验结果表明,模块化训练的句子编码器比传统的多语言句子编码器更加有效,尤其是对于低资源语言。论文使用了对抗学习和机器翻译的数据进行训练,并且提供了开源代码。
  • 相关研究
    在相关研究方面,最近也有一些关于多语言句子编码器的研究,例如《Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论