- 简介文本嵌入模型被广泛应用于语义相似度相关任务,包括信息检索、聚类和分类。通用型模型通常采用单阶段或多阶段训练流程,并以对比损失函数(contrastive loss)作为优化目标。本文提出一种全新的训练范式,将模型蒸馏技术与面向具体任务的对比损失相结合,从而构建出体积精简、性能优异的嵌入模型。我们的实验结果表明,相较于单纯依赖对比学习或仅采用蒸馏方法的传统训练范式,该混合策略在小型模型的训练中效果更佳。所得到的两个模型——jina-embeddings-v5-text-small 和 jina-embeddings-v5-text-nano——在各项基准测试中的得分均达到或超越了同尺寸模型的当前最优水平。此外,jina-embeddings-v5-text 系列模型还支持多种语言的长文本输入(最长可达 32,000 个词元),且其生成的嵌入向量在文本截断及二值量化等常见压缩操作下仍能保持高度鲁棒性。所有模型权重均已开源发布,我们衷心希望此举能推动嵌入模型领域的进一步发展与创新。
-
- 图表
- 解决问题如何在保持模型轻量(small/nano规模)的前提下,显著提升文本嵌入模型在语义相似性任务(如检索、聚类、分类)中的性能,尤其解决小模型在纯对比学习或纯知识蒸馏范式下性能受限的问题。
- 关键思路提出一种新型混合训练范式:将任务感知的对比损失(task-specific contrastive loss)与模型蒸馏(distillation from stronger teacher models)协同优化,而非单独使用任一方法;该范式特别适配小模型的容量约束,在有限参数下更高效地继承教师模型的语义判别能力与鲁棒性。
- 其它亮点1) 发布两个开源轻量级模型jina-embeddings-v5-text-small和nano,在MTEB等基准上达到同尺寸SOTA或SOTA-equivalent性能;2) 首次在nano级模型中实现32k长上下文支持(多语言)、截断鲁棒性(truncation robustness)及二值量化兼容性(binary quantization resilience);3) 所有模型权重完全开源;4) 实验覆盖多语言、长文本、低比特部署等真实场景需求,验证了‘紧凑性+鲁棒性+通用性’可兼得;值得深入的方向包括:跨语言蒸馏教师选择策略、动态长度感知对比采样、量化-aware蒸馏联合优化。
- Contrastive Learning of Text Embeddings (ACL 2022); Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (EMNLP 2019); DistilBERT (NAACL 2020); E5: Embodied Embeddings for Retrieval (arXiv 2023); BGE: Better General Embedding (arXiv 2023); Jina-Embeddings v4 (2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流