Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

2024年02月26日
  • 简介
    我们介绍了一套新的最先进的双语文本嵌入模型,旨在支持英语和另一种目标语言。这些模型能够处理长达8192个标记的文本输入,因此对于一系列自然语言处理任务(如文本检索、聚类和语义文本相似性(STS)计算)具有高度的通用性。 通过专注于双语模型并引入独特的多任务学习目标,我们显著提高了STS任务的模型性能,在目标语言理解和跨语言评估任务方面优于现有的多语言模型的能力。此外,我们的双语模型更高效,需要更少的参数和更少的内存,因为它们需要较小的词汇量。此外,我们扩展了大规模文本嵌入基准(MTEB),包括德语和西班牙语嵌入模型的基准。这种整合旨在刺激这些语言的文本嵌入技术的进一步研究和发展。
  • 图表
  • 解决问题
    本篇论文试图解决如何设计支持英语和另一种目标语言的双语文本嵌入模型,以及如何在这些模型中引入独特的多任务学习目标,以提高模型在STS任务中的性能。
  • 关键思路
    本文的关键思路是设计支持英语和另一种目标语言的双语文本嵌入模型,并引入独特的多任务学习目标,以提高模型在STS任务中的性能。此外,该模型需要的参数和内存较少,效率更高。
  • 其它亮点
    该论文的亮点包括:1. 设计了支持英语和另一种目标语言的双语文本嵌入模型;2. 引入了独特的多任务学习目标,提高了模型在STS任务中的性能;3. 该模型需要的参数和内存较少,效率更高;4. 扩展了Massive Text Embedding Benchmark(MTEB)以包括德语和西班牙语嵌入模型的基准测试。
  • 相关研究
    最近在这个领域中,还有一些相关研究,包括:1.《Cross-lingual Language Model Pretraining》;2.《Unsupervised Cross-lingual Representation Learning at Scale》;3.《Multilingual Universal Sentence Encoder for Semantic Retrieval》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论