Nomic Embed: Training a Reproducible Long Context Text Embedder

Zach Nussbaum ,
John X. Morris ,
Brandon Duderstadt ,
Andriy Mulyar
2024年02月02日
  • 简介
    这份技术报告介绍了nomic-embed-text-v1的训练过程,它是第一个完全可复制的、开源的、开放权重的、开放数据的、8192上下文长度的英文文本嵌入模型。该模型在短文本和长文本任务上的表现都优于OpenAI Ada-002和OpenAI text-embedding-3-small。我们在Apache 2许可下发布了训练代码和模型权重。与其他开源模型不同的是,我们还发布了一个训练数据加载器,其中包含2.35亿个筛选后的文本对,可以完全复制nomic-embed-text-v1。您可以在https://github.com/nomic-ai/contrastors找到代码和数据以复制该模型。
  • 图表
  • 解决问题
    本论文旨在训练一种新的英文文本嵌入模型nomic-embed-text-v1,解决短文本和长文本任务的性能问题,并提供完整的可重复性训练代码和数据集。
  • 关键思路
    本论文的关键思路是训练一种新的英文文本嵌入模型nomic-embed-text-v1,使用235 million curated text pairs数据集进行训练,采用Apache 2许可证发布训练代码和模型权重。
  • 其它亮点
    本论文的亮点包括:提供完整的可重复性训练代码和数据集;训练出一种新的英文文本嵌入模型nomic-embed-text-v1,性能优于OpenAI Ada-002和OpenAI text-embedding-3-small;使用235 million curated text pairs数据集进行训练。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如OpenAI Ada-002和OpenAI text-embedding-3-small。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论