- 简介在本文中,我们提出了 KaLM-Embedding-V2,这是一款多功能且轻量级的嵌入模型。通过采用先进的训练技术和高质量的数据,该模型在通用文本嵌入任务中表现出色。我们的主要创新包括:(1)为了更好地使架构适应表示学习,我们移除了因果注意力掩码,转而采用完全双向的 Transformer,并结合简单而有效的平均池化方法来生成固定长度的嵌入;(2)我们使用了一个多阶段的训练流程:(i) 在大规模弱监督的开源语料库上进行预训练;(ii) 在高质量的检索类和非检索类数据集上进行微调;(iii) 通过模型集成参数平均提升模型泛化能力。此外,我们还引入了一种焦点式重加权机制,将学习重点集中在困难样本上,以及一种在线难负例混合策略,以避免昂贵的离线挖掘过程;(3)我们收集了超过20个类别的数据用于预训练、100个类别的数据用于微调,从而全面提升嵌入模型的性能与泛化能力。在 Massive Text Embedding Benchmark(MTEB)中文和英文任务上的广泛评估表明,我们的模型显著优于其他规模相当的模型,并能与大上3倍、14倍、18倍和26倍的嵌入模型相媲美,在参数量不足10亿的情况下,树立了新型多功能轻量化嵌入模型的新标杆。
-
- 图表
- 解决问题论文旨在解决通用文本嵌入模型的性能与规模之间的矛盾,试图在保持模型紧凑(小于1B参数)的同时实现卓越的多语言(中英文)表现。这仍然是一个相对较新的问题,因为目前许多高性能嵌入模型依赖于更大的参数量。
- 关键思路提出KaLM-Embedding-V2,通过架构改进(如去除因果注意力掩码、使用双向Transformer和均值池化)、多阶段训练流程(包括预训练、微调与模型集成)以及创新的难样本学习机制(如焦点式重加权与在线难负例混合),提升小模型的表现力与泛化能力。
- 其它亮点1. 采用简单但有效的mean-pooling策略生成固定长度嵌入,增强模型实用性 2. 多阶段训练结合了大规模弱监督数据与高质量检索/非检索任务数据,提升模型适应性 3. 引入在线难负例混合与焦点式重加权,避免昂贵的离线挖掘过程 4. 收集超过20类预训练与100类微调数据,构建多样化训练集 5. 在MTEB中文和英文榜单上显著优于同尺寸模型,并超越多个大3x至26x的模型
- 1. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (AAAI 2020) 2. SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) 3. BGE (Bidirectional Encoder Representations from Transformers for General Embeddings) series (2023) 4. GTR: Guided Transformer Ranking for Efficient and Effective Retrieval (ACL 2022) 5. LaBSE: Language-agnostic BERT Sentence Embedding for Cross-lingual Retrieval (TACL 2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流