- 简介基于仅解码器的大型语言模型(LLM)的嵌入模型开始在通用文本嵌入任务中表现优于基于BERT或T5的嵌入模型,包括稠密向量检索。在本研究中,我们引入了NV-Embed模型,采用多种架构设计和训练程序,显著提高LLM作为通用嵌入模型的性能,同时保持其简单性和可重复性。对于模型架构,我们提出了一个潜在的注意力层来获得汇集嵌入,相比于平均池化或使用LLMs中的最后一个<EOS>标记嵌入,它始终可以提高检索和下游任务的准确性。为了增强表示学习,我们在对比训练期间移除了LLMs的因果注意力掩码。对于模型训练,我们引入了一个两阶段对比指令调整方法。首先,它使用检索数据集上的指令进行对比训练,利用批内负样本和精心筛选的困难负样本。在第二阶段,它将各种非检索数据集混合到指令调整中,不仅增强了非检索任务的准确性,还提高了检索性能。通过结合这些技术,我们的NV-Embed模型仅使用公开可用的数据,在包括检索、重排、分类、聚类和语义文本相似性任务在内的56个任务中,取得了69.32的历史最高分,在Massive Text Embedding Benchmark(MTEB)排名第一(截至2024年5月24日)。值得注意的是,我们的模型在MTEB基准测试中的15个检索任务中也达到了59.36的最高分(也称为BEIR)。我们将在https://huggingface.co/nvidia/NV-Embed-v1上开源模型。
- 图表
- 解决问题本文旨在提出一种新的语言模型嵌入模型NV-Embed,以解决通用文本嵌入任务中性能不足的问题。其中,作者提出了一种潜在的注意力层来获取池化嵌入,同时通过对模型训练方法的改进来增强表示学习。
- 关键思路本文的关键思路是通过引入潜在的注意力层来获取池化嵌入,同时通过对模型训练方法的改进来增强表示学习。
- 其它亮点NV-Embed模型在公开数据集上取得了69.32的最高得分,排名Massive Text Embedding Benchmark (MTEB)第一。该模型还在MTEB基准测试中的15个检索任务中获得了59.36的最高得分。作者还开源了模型代码,供研究者们使用。
- 近期的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》、《T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢