jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Saba Sturua ,
Isabelle Mohr ,
Mohammad Kalim Akram ,
Michael Günther ,
Bo Wang ,
Markus Krimmel ,
Feng Wang ,
Georgios Mastrapas ,
Andreas Koukounas ,
Andreas Koukounas ,
Nan Wang ,
Han Xiao
636
热度
2024年09月16日
  • 简介
    我们介绍了jina-embeddings-v3,这是一个具有5.7亿参数的新型文本嵌入模型,它在多语言数据和长上下文检索任务上实现了最先进的性能,支持长达8192个标记的上下文长度。该模型包括一组特定任务的低秩适应器(LoRA),用于生成用于查询-文档检索、聚类、分类和文本匹配的高质量嵌入。此外,Matryoshka表示学习被集成到训练过程中,允许灵活截断嵌入维度而不影响性能。在MTEB基准测试中的评估显示,jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新专有嵌入,同时在所有多语言任务中相对于multilingual-e5-large-instruct实现了更优异的性能。
  • 图表
  • 解决问题
    本论文旨在提出一种新的文本嵌入模型,以解决多语言数据和长文本检索任务中的问题。
  • 关键思路
    该模型包括一组任务特定的低秩适应器(LoRA),可生成高质量的嵌入向量,支持长达8192个标记的上下文长度。此外,该模型还集成了俄罗斯套娃表示学习,允许灵活截断嵌入维度而不影响性能。
  • 其它亮点
    该模型的性能在多语言数据和长文本检索任务中均优于当前最新的嵌入模型,如OpenAI和Cohere。论文还使用MTEB基准测试对模型进行了评估,并展示了模型在英文任务上的优越性能。
  • 相关研究
    在最近的研究中,还有一些相关的工作,如OpenAI和Cohere的最新嵌入模型,以及multilingual-e5-large-instruct。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论