Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

2024年09月07日
  • 简介
    许多用例需要检索较小的文本部分,而基于密集向量的检索系统通常在处理较短的文本段时表现更好,因为嵌入中的语义不太可能被过度压缩。因此,从业者经常将文本文档分成较小的块并单独编码它们。然而,以这种方式创建的块嵌入可能会失去周围块的上下文信息,导致子优表示。在本文中,我们介绍了一种称为“late chunking”的新方法,该方法利用长上下文嵌入模型来首先嵌入长文本的所有标记,在变换器模型之后和均值池化之前应用分块,因此在命名中使用“late”。由此产生的块嵌入捕捉到完整的上下文信息,从而在各种检索任务中获得更好的结果。该方法足够通用,适用于各种长上下文嵌入模型,并且无需额外的训练。为了进一步提高后期分块的有效性,我们提出了专门的嵌入模型微调方法。
  • 图表
  • 解决问题
    如何在文本检索任务中提高长文本的检索效果?
  • 关键思路
    使用长文本嵌入模型,在transformer模型后进行分块,以捕捉上下文信息,从而提高检索效果。
  • 其它亮点
    论文提出了一种新的方法,即“late chunking”,可以在不需要额外训练的情况下,提高长文本的检索效果。该方法可以应用于多种长文本嵌入模型。论文还提出了一种专门的微调方法,进一步提高了“late chunking”的效果。
  • 相关研究
    近期的相关研究包括使用transformer模型进行文本检索的研究,如《Dense Passage Retrieval for Open-Domain Question Answering》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论