- 简介本文介绍了一种新颖且简单的方法,只使用合成数据和不到1k的训练步骤即可获得高质量的文本嵌入。与现有方法不同,现有方法通常依赖于数十亿个弱监督文本对的多阶段中间预训练,然后使用少量标记数据集进行微调,而我们的方法不需要构建复杂的训练流程或依赖于通常受任务多样性和语言覆盖范围限制的手动收集的数据集。我们利用专有的LLMs为近100种语言的数十万个文本嵌入任务生成多样化的合成数据。然后,我们使用标准对比损失在合成数据上微调开源的仅解码器LLMs。实验表明,我们的方法在不使用任何标记数据的情况下,在竞争激烈的文本嵌入基准测试中取得了强大的性能。此外,当使用合成和标记数据的混合进行微调时,我们的模型在BEIR和MTEB基准测试中创造了新的最佳结果。
- 图表
- 解决问题本论文试图通过使用合成数据和少于1k次训练步骤来获得高质量的文本嵌入,以解决依赖于多阶段中间预训练和有限标记数据集的现有方法的限制。
- 关键思路通过利用专有的LLMs生成大量的合成数据,然后使用标准对比损失在合成数据上微调开源解码器,从而实现在高度竞争的文本嵌入基准测试中实现强大性能,而不使用任何标记数据。
- 其它亮点本论文的亮点包括使用合成数据进行微调的简单方法,以及在BEIR和MTEB基准测试中实现了新的最先进结果。此外,该论文提出的方法不需要建立复杂的训练流水线或依赖于手动收集的数据集。
- 最近的相关研究包括使用多阶段预训练和微调的方法,例如BERT和GPT系列模型。
沙发等你来抢
去评论
评论
沙发等你来抢