DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation

KnowledgeNLP@ACL 2024
2024年07月04日
  • 简介
    最近大型语言模型(LLMs)的进展显著提高了它们在各种自然语言处理(NLP)任务中的性能。然而,由于参数化记忆的限制,LLMs仍然难以生成非事实性的回答。检索增强生成(RAG)系统通过将检索模块与外部知识相结合来解决这个问题。然而,尽管它们取得了成功,但当前的RAG系统仍面临检索失败和LLMs过滤掉不相关信息能力有限的挑战。因此,在这项工作中,我们提出了DSL(使用句子级重新排序和重构的文档细化)框架,这是一个无监督的框架,将检索到的文档分解成句子,过滤掉不相关的句子,然后再将它们重构成连贯的段落。我们在多个开放领域问答数据集上实验证实了DSL的有效性,结果表明DSL显著提高了RAG系统在传统固定大小段落上的性能。此外,我们的DSL在特定但现实的情况下提高了性能,而无需额外的训练,为RAG系统中的文档细化提供了一种有效和高效的解决方案。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图提高Retrieval-Augmented Generation(RAG)系统的性能,解决其检索失败和过滤无关信息的问题。
  • 关键思路
    论文提出了一种无监督的框架DSL(Document Refinement with Sentence-Level Re-ranking and Reconstruction),将检索到的文档分解成句子,过滤掉无关句子,再将其重构成连贯的段落。
  • 其它亮点
    DSL在多个开放领域QA数据集上进行了实验,结果表明DSL显著提高了RAG系统的性能。DSL不需要额外的训练,提供了一种有效和高效的解决方案。
  • 相关研究
    最近的相关研究包括:Retrieval-Augmented Generation with Flexible Spans、Dense Passage Retrieval for Open-Domain Question Answering、Improving Language Understanding by Generative Pre-Training等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问