DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation

简介

最近大型语言模型（LLMs）的进展显著提高了它们在各种自然语言处理（NLP）任务中的性能。然而，由于参数化记忆的限制，LLMs仍然难以生成非事实性的回答。检索增强生成（RAG）系统通过将检索模块与外部知识相结合来解决这个问题。然而，尽管它们取得了成功，但当前的RAG系统仍面临检索失败和LLMs过滤掉不相关信息能力有限的挑战。因此，在这项工作中，我们提出了DSL（使用句子级重新排序和重构的文档细化）框架，这是一个无监督的框架，将检索到的文档分解成句子，过滤掉不相关的句子，然后再将它们重构成连贯的段落。我们在多个开放领域问答数据集上实验证实了DSL的有效性，结果表明DSL显著提高了RAG系统在传统固定大小段落上的性能。此外，我们的DSL在特定但现实的情况下提高了性能，而无需额外的训练，为RAG系统中的文档细化提供了一种有效和高效的解决方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图提高Retrieval-Augmented Generation（RAG）系统的性能，解决其检索失败和过滤无关信息的问题。
关键思路

论文提出了一种无监督的框架DSL（Document Refinement with Sentence-Level Re-ranking and Reconstruction），将检索到的文档分解成句子，过滤掉无关句子，再将其重构成连贯的段落。
其它亮点

DSL在多个开放领域QA数据集上进行了实验，结果表明DSL显著提高了RAG系统的性能。DSL不需要额外的训练，提供了一种有效和高效的解决方案。
相关研究

最近的相关研究包括：Retrieval-Augmented Generation with Flexible Spans、Dense Passage Retrieval for Open-Domain Question Answering、Improving Language Understanding by Generative Pre-Training等。

DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation

提问交流

提问交流