- 简介本文提出了一种新颖的无Chunking上下文检索(CFIC)方法,专门针对检索增强生成(RAG)系统。传统的RAG系统通常难以使用精确的证据文本来接地回答,因为处理冗长的文档和过滤不相关内容的挑战。常用的解决方案,如文档分块和调整语言模型以处理更长的上下文,都有其局限性。这些方法要么破坏文本的语义连贯性,要么未能有效解决证据检索中的噪声和不准确性问题。CFIC通过规避传统的分块过程来解决这些挑战。它利用文档的编码隐藏状态进行上下文检索,采用自回归解码来准确识别用户查询所需的特定证据文本,从而消除了分块的需求。CFIC进一步增强了两种解码策略,即约束句子前缀解码和跳过解码。这些策略不仅提高了检索过程的效率,还确保了生成接地文本证据的保真度。我们对CFIC在一系列开放式QA数据集上的评估表明,它在检索相关和准确的证据方面优于传统方法,是一个有价值的RAG系统领域的进步,通过取消文档分块的需求,提供了一种更加流畅、有效和高效的检索解决方案。
-
- 图表
- 解决问题本文针对Retrieval-Augmented Generation (RAG)系统中处理长文本、过滤无关内容的挑战,提出了一种新的Chunking-Free In-Context (CFIC)检索方法。
- 关键思路CFIC方法利用文档的编码隐藏状态进行上下文检索,采用自回归解码来准确识别用户查询所需的具体证据文本,避免了传统分块过程的干扰。
- 其它亮点CFIC方法通过两种解码策略进一步提高检索效率和准确性,并在多个开放式问答数据集上进行了评估,证明了其优越性。
- 最近的相关研究包括:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Neural Retrieval for Question Answering with Cross-Attention Supervised Data Augmentation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流