- 简介最近大型语言模型(LLMs)的进展显著提高了它们在各种自然语言处理(NLP)任务中的性能。然而,由于参数化记忆的限制,LLMs仍然难以生成非事实性的回答。检索增强生成(RAG)系统通过将检索模块与外部知识相结合来解决这个问题。然而,尽管它们取得了成功,但当前的RAG系统仍面临检索失败和LLMs过滤掉不相关信息能力有限的挑战。因此,在这项工作中,我们提出了DSL(使用句子级重新排序和重构的文档细化)框架,这是一个无监督的框架,将检索到的文档分解成句子,过滤掉不相关的句子,然后再将它们重构成连贯的段落。我们在多个开放领域问答数据集上实验证实了DSL的有效性,结果表明DSL显著提高了RAG系统在传统固定大小段落上的性能。此外,我们的DSL在特定但现实的情况下提高了性能,而无需额外的训练,为RAG系统中的文档细化提供了一种有效和高效的解决方案。
-
- 图表
- 解决问题论文试图提高Retrieval-Augmented Generation(RAG)系统的性能,解决其检索失败和过滤无关信息的问题。
- 关键思路论文提出了一种无监督的框架DSL(Document Refinement with Sentence-Level Re-ranking and Reconstruction),将检索到的文档分解成句子,过滤掉无关句子,再将其重构成连贯的段落。
- 其它亮点DSL在多个开放领域QA数据集上进行了实验,结果表明DSL显著提高了RAG系统的性能。DSL不需要额外的训练,提供了一种有效和高效的解决方案。
- 最近的相关研究包括:Retrieval-Augmented Generation with Flexible Spans、Dense Passage Retrieval for Open-Domain Question Answering、Improving Language Understanding by Generative Pre-Training等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流