Grounding Language Model with Chunking-Free In-Context Retrieval

2024年02月15日
  • 简介
    本文提出了一种新颖的无Chunking上下文检索(CFIC)方法,专门针对检索增强生成(RAG)系统。传统的RAG系统通常难以使用精确的证据文本来接地回答,因为处理冗长的文档和过滤不相关内容的挑战。常用的解决方案,如文档分块和调整语言模型以处理更长的上下文,都有其局限性。这些方法要么破坏文本的语义连贯性,要么未能有效解决证据检索中的噪声和不准确性问题。CFIC通过规避传统的分块过程来解决这些挑战。它利用文档的编码隐藏状态进行上下文检索,采用自回归解码来准确识别用户查询所需的特定证据文本,从而消除了分块的需求。CFIC进一步增强了两种解码策略,即约束句子前缀解码和跳过解码。这些策略不仅提高了检索过程的效率,还确保了生成接地文本证据的保真度。我们对CFIC在一系列开放式QA数据集上的评估表明,它在检索相关和准确的证据方面优于传统方法,是一个有价值的RAG系统领域的进步,通过取消文档分块的需求,提供了一种更加流畅、有效和高效的检索解决方案。
  • 作者讲解
  • 图表
  • 解决问题
    本文针对Retrieval-Augmented Generation (RAG)系统中处理长文本、过滤无关内容的挑战,提出了一种新的Chunking-Free In-Context (CFIC)检索方法。
  • 关键思路
    CFIC方法利用文档的编码隐藏状态进行上下文检索,采用自回归解码来准确识别用户查询所需的具体证据文本,避免了传统分块过程的干扰。
  • 其它亮点
    CFIC方法通过两种解码策略进一步提高检索效率和准确性,并在多个开放式问答数据集上进行了评估,证明了其优越性。
  • 相关研究
    最近的相关研究包括:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Neural Retrieval for Question Answering with Cross-Attention Supervised Data Augmentation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问