- 简介本文介绍了一种新颖且简单的方法,仅使用合成数据和不到1k的训练步骤即可获得高质量的文本嵌入。与现有方法通常依赖于数十亿个弱监督文本对的多阶段中间预训练,然后使用少量标记数据集进行微调不同,我们的方法不需要构建复杂的训练流水线或依赖于手动收集的数据集,这些数据集通常受到任务多样性和语言覆盖范围的限制。我们利用专有的LLMs在近100种语言中生成各种各样的合成数据,用标准对比损失在合成数据上微调开源的仅解码器的LLMs。实验表明,我们的方法在高度竞争的文本嵌入基准测试中取得了强大的性能,而不使用任何标记数据。此外,当使用合成和标记数据的混合进行微调时,我们的模型在BEIR和MTEB基准测试中取得了新的最佳结果。
- 图表
- 解决问题本文试图使用少于1k个训练步骤和仅依赖于合成数据的方法来获取高质量的文本嵌入,以解决依赖于大量弱监督文本对的多阶段中间预训练的现有方法所面临的问题。
- 关键思路本文提出了一种新颖而简单的方法,利用专有的LLMs在近100种语言中生成多样化的合成数据,为数十万个文本嵌入任务微调开源的解码器-only LLMs,使用标准对比损失,从而实现在高度竞争的文本嵌入基准测试中取得强大的性能而不使用任何标记数据。
- 其它亮点本文的亮点在于使用少量的合成数据和简单的方法实现了高质量的文本嵌入,同时在使用混合合成和标记数据进行微调时,取得了BEIR和MTEB基准测试的最新最佳结果。实验使用了多种数据集,并且开源了代码。
- 最近在这个领域中,也有一些相关的研究,如《Unsupervised Learning of Universal Sentence Representations from Natural Language Inference Data》和《Learning Cross-Lingual Sentence Representations via a Multi-task Dual-Encoder Model》。
沙发等你来抢
去评论
评论
沙发等你来抢