- 简介检索增强生成(RAG)系统在面临真实场景下的检索噪声时依然十分脆弱,即便所需证据已出现在前K个检索结果之中。其关键原因之一在于:现有检索器与重排序器仅以相关性为优化目标,往往倾向于选择两类不佳证据——要么是过于浅显、直接泄露答案的段落,要么是虽看似相关却缺失回答问题所必需的关键信息的段落;而它们均未考虑所选证据是否真正适配生成器的实际推理需求。为此,我们提出BAR-RAG方法,将重排序器重新定义为一种“边界感知型证据选择器”,其核心目标是精准定位生成器的“恰到好处区”(Goldilocks Zone):即所选证据既不能过于简单(以免丧失推理价值),也不能根本无法作答(以免导致生成失败),而是处于一种“富有挑战性却又充分完备”的理想状态,从而为生成器提供最强的学习信号。BAR-RAG采用基于生成器反馈的强化学习方式训练该证据选择器,并引入两阶段处理流程:首先依据所选证据的分布对生成器进行微调,以有效缓解训练与推理阶段之间存在的证据分布不匹配问题。在多个知识密集型问答基准上的实验表明,BAR-RAG在存在检索噪声的条件下始终显著提升端到端性能,相较强基线RAG及各类先进重排序方法,平均准确率提升达10.3%;同时,模型鲁棒性亦得到大幅增强。代码已开源,地址为:https://github.com/GasolSun36/BAR-RAG。
-
- 图表
- 解决问题RAG系统在真实检索噪声下表现脆弱,即使正确证据出现在top-K结果中,生成器仍难以有效利用——根源在于传统检索/重排序仅优化相关性,忽视证据对生成器的‘可推理性’与‘学习适配性’:既非过于简单(泄露答案),也非过于困难(缺失关键信息),而应落在生成器的‘Goldilocks Zone’(恰到好处的挑战区)。这不是全新问题,但此前未被形式化建模为生成器感知的边界感知选择问题。
- 关键思路BAR-RAG将重排序器重构为‘边界感知证据选择器’(Boundary-Aware Reranker),通过强化学习直接以生成器反馈(如答案正确性、置信度、推理链完整性)作为奖励信号进行端到端训练;并引入两阶段协同微调:先用选择器诱导的证据分布微调生成器,再联合优化,显式缓解训练-推理间的证据分布偏移。其新意在于首次将证据选择目标从‘人类判别相关性’转向‘生成器可学习性’,并用RL实现生成器驱动的选择边界建模。
- 其它亮点在Natural Questions、TriviaQA、HotpotQA等主流知识密集型QA基准上验证,平均提升10.3%准确率(vs. strong RAG/rerank baselines如ColBERTv2+MonoT5);显著提升对检索噪声(如top-K中混入高相关低信息量片段、关键实体缺失)的鲁棒性;代码完全开源(GitHub: GasolSun36/BAR-RAG);实验设计包含消融研究(验证两阶段微调与RL奖励设计的必要性)、噪声注入分析及生成器内部状态(logits熵、attention聚焦度)可视化;未来可探索多跳推理中的分层Goldilocks Zone建模、跨模型泛化的边界迁移机制。
- ReAct: Synergizing Reasoning and Acting in Language Models (Wang et al., 2023); RAG-Token: Retrieval-Augmented Generation with Token-Level Evidence Selection (Liu et al., ACL 2024); Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (Asai et al., ICML 2024); DINO: Distilling Information from Noisy Observations for Robust Retrieval (Zhang et al., NeurIPS 2023); GRACE: Generative Retrieval Augmented Conversational Evaluation (Jiang et al., EMNLP 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流