F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

2026年03月19日
  • 简介
    我们推出了F2LLM-v2,这是一系列全新的通用型、多语言嵌入模型,共包含8种不同参数规模,从8000万(80M)到140亿(14B)不等。F2LLM-v2基于我们全新构建的高质量公开数据集进行训练,该数据集由6000万个样本组成;模型支持超过200种语言,尤其重点关注了此前长期缺乏充分支持的中低资源语言。通过将两阶段大语言模型(LLM)驱动的嵌入训练流程,与俄罗斯套娃式学习(matryoshka learning)、模型剪枝(model pruning)及知识蒸馏(knowledge distillation)等先进技术深度融合,我们在显著提升模型效率的同时,仍保持了具有竞争力的性能表现——其效率远超以往所有基于大语言模型的嵌入模型。大量实验评估结果表明:F2LLM-v2-14B在11项MTEB基准测试中均位居榜首;而该系列中的较小规模模型,亦在资源受限场景下的应用中树立了新的性能标杆。为推动开源嵌入模型研究的发展,我们全面公开了全部模型权重、训练数据、源代码以及各训练阶段的中间检查点(intermediate checkpoints)。
  • 作者讲解
  • 图表
  • 解决问题
    现有大语言模型(LLM)驱动的嵌入模型普遍存在计算开销大、部署成本高、对中低资源语言支持薄弱等问题,难以兼顾多语言覆盖、模型效率与下游任务性能;本工作旨在构建高效、轻量、真正多语言(尤其覆盖200+语言,含大量中低资源语种)的通用嵌入模型族,解决嵌入模型在实际落地中‘性能-效率-语言公平性’不可兼得的核心矛盾。
  • 关键思路
    提出两阶段LLM-based embedding训练范式:第一阶段用强教师LLM(如Qwen、Llama3)生成高质量跨语言语义监督信号;第二阶段结合Matryoshka Learning(支持动态维度推理)、结构化剪枝(保留关键注意力头与FFN通道)与分层知识蒸馏(从14B→80M逐级压缩),实现单一体系下全尺寸模型的协同优化;该设计首次将LLM语义能力、细粒度表征压缩与多语言均衡训练深度耦合。
  • 其它亮点
    • 在11项MTEB基准上F2LLM-v2-14B取得SOTA,小模型(如F2LLM-v2-350M)在BeIR、MMLU-X等资源受限评测中显著超越同参数量Sentence-BERT、BGE、Conan-Embed等;• 数据层面发布60M高质量多语言(含斯瓦希里语、孟加拉语、哈萨克语等57个低资源语种)混合语料集,并开源全部8个模型权重、训练代码、数据清洗脚本及中间检查点(Hugging Face & GitHub);• 实验设计涵盖零样本跨语言检索、多语言NLI、方言相似度、低资源语种few-shot分类等严苛场景;值得深入的方向包括:Matryoshka维度选择的语义可解释性、低资源语言监督信号的自举机制、嵌入模型与轻量LLM的联合指令微调。
  • 相关研究
    • Gao et al. (2023) 'Text Embeddings by Weakly-Supervised Contrastive Pre-training' (InstructEmbedding); • Wang et al. (2024) 'BGE: Better General Embedding for Text Retrieval'; • Liu et al. (2024) 'Conan-Embed: Contrastive Alignment for Multilingual Embeddings'; • Muennighoff et al. (2023) 'mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer'; • Wang et al. (2024) 'Matryoshka Embeddings: Learning Multi-Granularity Representations for Efficient Retrieval'
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问