LumberChunker: Long-Form Narrative Document Segmentation

简介

现代自然语言处理任务越来越依赖于密集检索方法来获取最新和相关的上下文信息。我们的动机是基于这样一个前提，即利用可以变化大小的段落来进行检索，从而更好地捕捉内容的语义独立性。我们提出了LumberChunker方法，利用LLM动态分割文档，通过迭代提示LLM来确定一组连续段落中内容开始变化的位置。为了评估我们的方法，我们引入了GutenQA基准测试，其中包含3000个“大海捞针”类型的问题-答案对，来源于Project Gutenberg上可用的100本公共领域叙事书籍。我们的实验表明，LumberChunker不仅在检索性能（DCG@20）方面比最有竞争力的基线表现提高了7.37％，而且当集成到RAG流水线中时，LumberChunker证明比其他分块方法和竞争基线（如Gemini 1.5M Pro）更为有效。我们的代码和数据可在https://github.com/joaodsmarques/LumberChunker上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图提出一种动态分段方法LumberChunker，以解决密集检索中段落大小不一的问题，并在GutenQA数据集上进行了评估。
关键思路

LumberChunker利用LLM动态分段，迭代地提示LLM识别连续段落中内容开始变化的位置。
其它亮点

LumberChunker在GutenQA数据集上的表现优于竞争对手7.37％，并且在集成到RAG管道中时比其他分块方法和竞争基线（如Gemini 1.5M Pro）更有效。作者已经在GitHub上公开了代码和数据。
相关研究

与本文相关的研究包括密集检索和段落分块技术的研究，如DPR和PreSumm等。

LumberChunker: Long-Form Narrative Document Segmentation

提问交流

提问交流