F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

向作者提问

NEW

简介

我们推出了F2LLM-v2，这是一系列全新的通用型、多语言嵌入模型，共包含8种不同参数规模，从8000万（80M）到140亿（14B）不等。F2LLM-v2基于我们全新构建的高质量公开数据集进行训练，该数据集由6000万个样本组成；模型支持超过200种语言，尤其重点关注了此前长期缺乏充分支持的中低资源语言。通过将两阶段大语言模型（LLM）驱动的嵌入训练流程，与俄罗斯套娃式学习（matryoshka learning）、模型剪枝（model pruning）及知识蒸馏（knowledge distillation）等先进技术深度融合，我们在显著提升模型效率的同时，仍保持了具有竞争力的性能表现——其效率远超以往所有基于大语言模型的嵌入模型。大量实验评估结果表明：F2LLM-v2-14B在11项MTEB基准测试中均位居榜首；而该系列中的较小规模模型，亦在资源受限场景下的应用中树立了新的性能标杆。为推动开源嵌入模型研究的发展，我们全面公开了全部模型权重、训练数据、源代码以及各训练阶段的中间检查点（intermediate checkpoints）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有大语言模型（LLM）驱动的嵌入模型普遍存在计算开销大、部署成本高、对中低资源语言支持薄弱等问题，难以兼顾多语言覆盖、模型效率与下游任务性能；本工作旨在构建高效、轻量、真正多语言（尤其覆盖200+语言，含大量中低资源语种）的通用嵌入模型族，解决嵌入模型在实际落地中‘性能-效率-语言公平性’不可兼得的核心矛盾。
关键思路

提出两阶段LLM-based embedding训练范式：第一阶段用强教师LLM（如Qwen、Llama3）生成高质量跨语言语义监督信号；第二阶段结合Matryoshka Learning（支持动态维度推理）、结构化剪枝（保留关键注意力头与FFN通道）与分层知识蒸馏（从14B→80M逐级压缩），实现单一体系下全尺寸模型的协同优化；该设计首次将LLM语义能力、细粒度表征压缩与多语言均衡训练深度耦合。
其它亮点

• 在11项MTEB基准上F2LLM-v2-14B取得SOTA，小模型（如F2LLM-v2-350M）在BeIR、MMLU-X等资源受限评测中显著超越同参数量Sentence-BERT、BGE、Conan-Embed等；• 数据层面发布60M高质量多语言（含斯瓦希里语、孟加拉语、哈萨克语等57个低资源语种）混合语料集，并开源全部8个模型权重、训练代码、数据清洗脚本及中间检查点（Hugging Face & GitHub）；• 实验设计涵盖零样本跨语言检索、多语言NLI、方言相似度、低资源语种few-shot分类等严苛场景；值得深入的方向包括：Matryoshka维度选择的语义可解释性、低资源语言监督信号的自举机制、嵌入模型与轻量LLM的联合指令微调。
相关研究

• Gao et al. (2023) 'Text Embeddings by Weakly-Supervised Contrastive Pre-training' (InstructEmbedding); • Wang et al. (2024) 'BGE: Better General Embedding for Text Retrieval'; • Liu et al. (2024) 'Conan-Embed: Contrastive Alignment for Multilingual Embeddings'; • Muennighoff et al. (2023) 'mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer'; • Wang et al. (2024) 'Matryoshka Embeddings: Learning Multi-Granularity Representations for Efficient Retrieval'

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问