Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

简介

许多用例需要检索较小的文本部分，而基于密集向量的检索系统通常在处理较短的文本段时表现更好，因为嵌入中的语义不太可能被过度压缩。因此，从业者经常将文本文档分成较小的块并单独编码它们。然而，以这种方式创建的块嵌入可能会失去周围块的上下文信息，导致子优表示。在本文中，我们介绍了一种称为“late chunking”的新方法，该方法利用长上下文嵌入模型来首先嵌入长文本的所有标记，在变换器模型之后和均值池化之前应用分块，因此在命名中使用“late”。由此产生的块嵌入捕捉到完整的上下文信息，从而在各种检索任务中获得更好的结果。该方法足够通用，适用于各种长上下文嵌入模型，并且无需额外的训练。为了进一步提高后期分块的有效性，我们提出了专门的嵌入模型微调方法。
图表
解决问题

如何在文本检索任务中提高长文本的检索效果？
关键思路

使用长文本嵌入模型，在transformer模型后进行分块，以捕捉上下文信息，从而提高检索效果。
其它亮点

论文提出了一种新的方法，即“late chunking”，可以在不需要额外训练的情况下，提高长文本的检索效果。该方法可以应用于多种长文本嵌入模型。论文还提出了一种专门的微调方法，进一步提高了“late chunking”的效果。
相关研究

近期的相关研究包括使用transformer模型进行文本检索的研究，如《Dense Passage Retrieval for Open-Domain Question Answering》。

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

评论