- 简介本文探讨了现有嵌入模型的上下文窗口扩展,将其限制提高到32k,而无需额外的训练。虽然LLMs的上下文限制已经超过了100万个标记,但嵌入模型仍然局限于不超过8k个标记的窄窗口,不能应用于需要长输入的情况,例如法律合同。首先,我们在新构建的LongEmbed基准测试上检查了当前嵌入模型在长上下文检索方面的性能。LongEmbed包括两个合成任务和四个精心选择的真实任务,其中包含长度和分散目标信息的文档。基准测试结果强调了这些模型的改进空间。基于此,全面的实验表明,像位置插值这样的无需训练的上下文窗口扩展策略可以有效地将现有嵌入模型的上下文窗口扩展数倍,无论它们的原始上下文是512还是超过4k。此外,对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以收获显著性能提升的可能性,同时严格保留短输入的原始行为。对于使用旋转位置嵌入(RoPE)的模型,在采用RoPE特定方法(如NTK和SelfExtend)时观察到了显著的增强效果,表明RoPE在上下文窗口扩展方面优于APE。为了促进未来的研究,我们发布了E5-Base-4k和E5-RoPE-Base,以及LongEmbed基准测试。
- 图表
- 解决问题本论文旨在扩展现有的嵌入模型的上下文窗口,将其从不超过8k的窗口扩展到32k,以满足长输入文本的应用需求。
- 关键思路通过使用位置插值等训练无关的上下文窗口扩展策略,可以有效地将现有嵌入模型的上下文窗口扩展数倍,而不需要额外的训练。对于使用绝对位置编码(APE)的模型,可以进一步微调以获得显着的性能提升,而对于使用旋转位置嵌入(RoPE)的模型,使用RoPE特定的方法可以获得显著的增强效果,表明RoPE在上下文窗口扩展方面优于APE。
- 其它亮点论文提出了一个名为LongEmbed的基准测试,包括两个合成任务和四个现实任务,涵盖了不同长度和分散目标信息的文档。研究结果表明,当前的嵌入模型在长文本检索方面仍有很大的提升空间。为了方便未来的研究,作者发布了E5-Base-4k和E5-RoPE-Base,以及LongEmbed基准测试。
- 最近的相关研究主要集中在扩展语言模型的上下文窗口大小上,例如GPT-3等。
沙发等你来抢
去评论
评论
沙发等你来抢