MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis

2024年05月30日
  • 简介
    最近,许多嵌入模型已经被提供并广泛用于各种自然语言处理任务。大规模文本嵌入基准(MTEB)主要简化了选择在多个英语任务中表现良好的模型的过程,但是将其扩展到其他语言仍然具有挑战性。这就是我们扩展MTEB以提出第一个用于法语的大规模句子嵌入基准的原因。我们在易于使用的界面中收集了15个现有数据集,并创建了三个新的法语数据集,以对8个任务类别进行全球评估。我们在大规模上比较了51个精心选择的嵌入模型,进行了全面的统计测试,并分析了模型性能和许多特征之间的相关性。我们发现,即使没有模型在所有任务上表现最佳,也可以表现得非常出色,预先训练于句子相似性的大型多语言模型。我们的工作提供了开源代码、新的数据集和公共排行榜。
  • 图表
  • 解决问题
    本论文旨在扩展 Massive Text Embedding Benchmark (MTEB) 以提供第一个针对法语的大规模句子嵌入基准测试,以比较和评估多种模型在法语自然语言处理任务上的性能。
  • 关键思路
    本论文通过比较51个嵌入模型在8个任务类别上的性能,发现尽管没有一种模型在所有任务上表现最佳,但在句子相似性上预训练的大型多语言模型表现出色。
  • 其它亮点
    本论文提供了一个易于使用的界面,汇集了15个现有的数据集和三个新的法语数据集,以进行全面的评估。论文使用了大规模的实验设计和全面的统计测试,并分析了模型性能与其特征之间的相关性。此外,本论文还提供了开源代码和公共排行榜。
  • 相关研究
    最近在该领域的相关研究包括:1.《Massive Exploration of Neural Machine Translation Architectures》;2.《Unsupervised Cross-lingual Representation Learning at Scale》;3.《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论