- 简介最近改进自回归大语言模型(LLMs)中文本嵌入提取的方法,主要集中在改进数据、骨干预训练语言模型或通过指令改进任务区分。在这项工作中,我们解决了自回归模型的一个架构限制:标记嵌入不能包含后面出现的标记的信息。为了解决这个限制,我们提出了一种简单的方法,称为“回声嵌入”,其中我们在上下文中将输入重复两次,并从第二次出现中提取嵌入。我们表明,早期标记的回声嵌入可以编码有关后期标记的信息,使我们能够最大限度地利用高质量的LLMs进行嵌入。在MTEB排行榜上,回声嵌入在零-shot情况下比传统嵌入提高了9%以上,在微调时提高了约0.7%。使用Mistral-7B模型的回声嵌入与之前没有利用合成微调数据的开源模型相比,达到了最先进的水平。
- 图表
- 解决问题本文试图解决自回归大型语言模型(LLMs)中的一个架构限制:令牌嵌入不能包含后面出现的令牌的信息。作者提出了一种名为“回声嵌入”的简单方法,可以从上下文中提取出早期令牌的嵌入,并且这些嵌入可以编码后面的令牌信息,从而最大化利用高质量的LLMs进行嵌入提取。
- 关键思路本文的关键思路是使用“回声嵌入”来解决自回归大型语言模型中的架构限制,从而最大化利用高质量的LLMs进行嵌入提取。
- 其它亮点本文的实验结果表明,“回声嵌入”可以在MTEB排行榜上将零-shot的表现提高9%以上,并在微调后提高约0.7%。使用Mistral-7B模型的“回声嵌入”实现了与不利用合成微调数据的先前开源模型相比的最新成果。值得注意的是,本文提出的方法非常简单,易于实现。
- 最近的相关研究包括使用不同的预训练语言模型或使用指令来改善从自回归大型语言模型中提取文本嵌入的方法。
沙发等你来抢
去评论
评论
沙发等你来抢