Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

简介

本报告描述了创建训练数据集和家族化的\texttt{arctic-embed}文本嵌入模型的配方（一组五个模型，参数从22到334百万，权重在Apache-2许可下开源）。在发布时，每个模型在MTEB检索排行榜上都达到了同等大小的模型的最新检索准确性，其中最大的模型arctic-embed-l超过了闭源嵌入模型，如Cohere的embed-v3和Open AI的text-embed-3-large。除了我们的训练配方的细节，我们还提供了几个信息性的消融研究，我们认为这是我们模型表现的原因。
图表
解决问题

本论文旨在创建一组名为arctic-embed的文本嵌入模型，这些模型具有22到334百万个参数，并在MTEB检索排行榜上取得了最先进的检索准确性。论文试图解决的问题是如何创建高效的文本嵌入模型。
关键思路

论文中的关键思路是使用一个特定的训练数据集和训练方法来训练模型。此外，论文还提供了一些有用的消融研究，以帮助人们理解模型表现的原因。
其它亮点

论文提供了一些有用的消融研究，以帮助人们理解模型表现的原因。使用的数据集是MTEB检索排行榜。论文还开源了模型权重，并提供了代码。最大的模型，arctic-embed-l，表现优于闭源嵌入模型，如Cohere的embed-v3和Open AI的text-embed-3-large。
相关研究

最近在这个领域中，还有一些相关的研究。例如，Facebook的fastText和Google的BERT都是文本嵌入领域的知名模型。

Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

评论