QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

向作者提问

NEW

简介

动态检索增强生成技术通过在生成过程中自适应地判断何时进行信息检索，以缓解大语言模型（LLMs）中的幻觉问题。然而，现有方法依赖于模型内部信号（例如logits、熵值），这些信号本质上并不可靠，因为大语言模型通常校准性差，常常对错误输出表现出过高置信度。我们提出QuCo-RAG方法，摒弃主观置信度判断，转而采用基于预训练数据计算得出的客观统计指标来衡量不确定性。该方法通过两个阶段量化不确定性：（1）生成前阶段，识别低频实体以发现长尾知识盲区；（2）生成过程中，验证实体在预训练语料库中的共现情况，其中无共现现象通常预示着存在幻觉风险。两个阶段均利用Infini-gram技术，在包含四万亿token的数据上实现毫秒级查询，并在不确定性较高时触发检索机制。在多跳问答基准上的实验表明，使用OLMo-2模型时，QuCo-RAG相较当前最先进的基线方法带来了5至12个百分点的EM分数提升；同时该方法还能有效迁移至预训练数据未公开的模型（如Llama、Qwen、GPT），EM分数最高提升达14个点。在生物医学问答任务中的跨领域泛化表现进一步验证了本方法范式的鲁棒性。上述结果确立了基于语料库的验证机制作为一种原则性强、实际中具备模型无关性的动态RAG新范式。我们的代码已公开发布于https://github.com/ZhishanQ/QuCo-RAG。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决大型语言模型（LLMs）在生成过程中产生幻觉（hallucinations）的问题，尤其是在动态检索增强生成（Dynamic RAG）中依赖模型内部信号（如logits、熵）判断是否检索的不可靠性。由于LLMs通常校准不良，可能对错误输出表现出高置信度，因此现有方法存在根本缺陷。这是一个重要且尚未被充分解决的问题，尤其在多跳问答和长尾知识场景中。
关键思路

提出QuCo-RAG，将不确定性判断从模型内部的主观置信度转向基于预训练语料库的客观统计。其核心思想是：1）生成前识别低频实体以发现知识盲区；2）生成过程中验证实体间的共现关系，零共现提示高幻觉风险。通过Infini-gram实现万亿级token上的毫秒级查询，高效触发检索。该方法不依赖模型内部状态，更具可解释性和模型无关性。
其它亮点

在多跳QA基准上，QuCo-RAG相比当前SOTA基线在OLMo-2模型上带来5–12点EM提升，并能迁移到Llama、Qwen、GPT等未公开训练数据的模型，提升高达14点；在生物医学QA任务中也表现出良好泛化能力。实验设计严谨，覆盖多个模型与领域。使用了HotpotQA、MuSiQue等标准多跳数据集，并开源代码（https://github.com/ZhishanQ/QuCo-RAG），便于复现与后续研究。未来可探索更多语义层面的语料库统计特征，或将该范式应用于事实纠错与模型训练阶段。
相关研究

1. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 2. Atlas: Few-shot Learning with Retrieval-Augmented Language Models 3. Freshness-aware Dynamic RAG via Uncertainty Estimation 4. Calibrating Confidence and Detecting Hallucinations in Large Language Models 5. Infini-gram: Scaling n-gram to Infinite Length with Constant Memory

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问