KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model

向作者提问

NEW

简介

在本文中，我们提出了 KaLM-Embedding-V2，这是一款多功能且轻量级的嵌入模型。通过采用先进的训练技术和高质量的数据，该模型在通用文本嵌入任务中表现出色。我们的主要创新包括：（1）为了更好地使架构适应表示学习，我们移除了因果注意力掩码，转而采用完全双向的 Transformer，并结合简单而有效的平均池化方法来生成固定长度的嵌入；（2）我们使用了一个多阶段的训练流程：(i) 在大规模弱监督的开源语料库上进行预训练；(ii) 在高质量的检索类和非检索类数据集上进行微调；(iii) 通过模型集成参数平均提升模型泛化能力。此外，我们还引入了一种焦点式重加权机制，将学习重点集中在困难样本上，以及一种在线难负例混合策略，以避免昂贵的离线挖掘过程；（3）我们收集了超过20个类别的数据用于预训练、100个类别的数据用于微调，从而全面提升嵌入模型的性能与泛化能力。在 Massive Text Embedding Benchmark（MTEB）中文和英文任务上的广泛评估表明，我们的模型显著优于其他规模相当的模型，并能与大上3倍、14倍、18倍和26倍的嵌入模型相媲美，在参数量不足10亿的情况下，树立了新型多功能轻量化嵌入模型的新标杆。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决通用文本嵌入模型的性能与规模之间的矛盾，试图在保持模型紧凑（小于1B参数）的同时实现卓越的多语言（中英文）表现。这仍然是一个相对较新的问题，因为目前许多高性能嵌入模型依赖于更大的参数量。
关键思路

提出KaLM-Embedding-V2，通过架构改进（如去除因果注意力掩码、使用双向Transformer和均值池化）、多阶段训练流程（包括预训练、微调与模型集成）以及创新的难样本学习机制（如焦点式重加权与在线难负例混合），提升小模型的表现力与泛化能力。
其它亮点

1. 采用简单但有效的mean-pooling策略生成固定长度嵌入，增强模型实用性 2. 多阶段训练结合了大规模弱监督数据与高质量检索/非检索任务数据，提升模型适应性 3. 引入在线难负例混合与焦点式重加权，避免昂贵的离线挖掘过程 4. 收集超过20类预训练与100类微调数据，构建多样化训练集 5. 在MTEB中文和英文榜单上显著优于同尺寸模型，并超越多个大3x至26x的模型
相关研究

1. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (AAAI 2020) 2. SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) 3. BGE (Bidirectional Encoder Representations from Transformers for General Embeddings) series (2023) 4. GTR: Guided Transformer Ranking for Efficient and Effective Retrieval (ACL 2022) 5. LaBSE: Language-agnostic BERT Sentence Embedding for Cross-lingual Retrieval (TACL 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问