Gecko: Versatile Text Embeddings Distilled from Large Language Models

2024年03月29日
  • 简介
    我们介绍了 Gecko,一种紧凑且多用途的文本嵌入模型。Gecko通过利用一个关键思想,在大型语言模型(LLMs)中提取知识以形成检索器,实现了强大的检索性能。我们的两步蒸馏过程始于使用LLM生成多样化的合成配对数据。接下来,我们通过为每个查询检索一组候选段落,并使用相同的LLM重新标记正面和困难负面段落来进一步提高数据质量。我们的方法的有效性通过Gecko的紧凑性得到证明。在大规模文本嵌入基准(MTEB)上,具有256嵌入维度的Gecko的表现优于所有现有768嵌入维度的条目。具有768嵌入维度的Gecko实现了平均得分66.31,与7倍更大的模型和5倍更高维度的嵌入竞争。
  • 图表
  • 解决问题
    Gecko试图通过提取大型语言模型中的知识来实现强大的文本检索性能,从而解决文本检索的问题。
  • 关键思路
    Gecko使用两步蒸馏过程,通过生成多样化的合成数据和利用候选段落进一步改善数据质量,将大型语言模型中的知识提炼到检索器中,从而实现强大的检索性能。
  • 其它亮点
    Gecko在MTEB基准测试中表现出色,具有256维嵌入维度的Gecko优于所有现有的768维嵌入大小的模型。具有768维嵌入维度的Gecko平均得分为66.31,与7倍大的模型和5倍高维度嵌入竞争。
  • 相关研究
    最近的相关研究包括使用Bert进行文本检索的研究,如《Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index》和《Simple and Effective Semantic Matching with BERT and Vectors》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论