Rethinking the Reranker: Boundary-Aware Evidence Selection for Robust Retrieval-Augmented Generation

向作者提问

NEW

简介

检索增强生成（RAG）系统在面临真实场景下的检索噪声时依然十分脆弱，即便所需证据已出现在前K个检索结果之中。其关键原因之一在于：现有检索器与重排序器仅以相关性为优化目标，往往倾向于选择两类不佳证据——要么是过于浅显、直接泄露答案的段落，要么是虽看似相关却缺失回答问题所必需的关键信息的段落；而它们均未考虑所选证据是否真正适配生成器的实际推理需求。为此，我们提出BAR-RAG方法，将重排序器重新定义为一种“边界感知型证据选择器”，其核心目标是精准定位生成器的“恰到好处区”（Goldilocks Zone）：即所选证据既不能过于简单（以免丧失推理价值），也不能根本无法作答（以免导致生成失败），而是处于一种“富有挑战性却又充分完备”的理想状态，从而为生成器提供最强的学习信号。BAR-RAG采用基于生成器反馈的强化学习方式训练该证据选择器，并引入两阶段处理流程：首先依据所选证据的分布对生成器进行微调，以有效缓解训练与推理阶段之间存在的证据分布不匹配问题。在多个知识密集型问答基准上的实验表明，BAR-RAG在存在检索噪声的条件下始终显著提升端到端性能，相较强基线RAG及各类先进重排序方法，平均准确率提升达10.3%；同时，模型鲁棒性亦得到大幅增强。代码已开源，地址为：https://github.com/GasolSun36/BAR-RAG。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

RAG系统在真实检索噪声下表现脆弱，即使正确证据出现在top-K结果中，生成器仍难以有效利用——根源在于传统检索/重排序仅优化相关性，忽视证据对生成器的‘可推理性’与‘学习适配性’：既非过于简单（泄露答案），也非过于困难（缺失关键信息），而应落在生成器的‘Goldilocks Zone’（恰到好处的挑战区）。这不是全新问题，但此前未被形式化建模为生成器感知的边界感知选择问题。
关键思路

BAR-RAG将重排序器重构为‘边界感知证据选择器’（Boundary-Aware Reranker），通过强化学习直接以生成器反馈（如答案正确性、置信度、推理链完整性）作为奖励信号进行端到端训练；并引入两阶段协同微调：先用选择器诱导的证据分布微调生成器，再联合优化，显式缓解训练-推理间的证据分布偏移。其新意在于首次将证据选择目标从‘人类判别相关性’转向‘生成器可学习性’，并用RL实现生成器驱动的选择边界建模。
其它亮点

在Natural Questions、TriviaQA、HotpotQA等主流知识密集型QA基准上验证，平均提升10.3%准确率（vs. strong RAG/rerank baselines如ColBERTv2+MonoT5）；显著提升对检索噪声（如top-K中混入高相关低信息量片段、关键实体缺失）的鲁棒性；代码完全开源（GitHub: GasolSun36/BAR-RAG）；实验设计包含消融研究（验证两阶段微调与RL奖励设计的必要性）、噪声注入分析及生成器内部状态（logits熵、attention聚焦度）可视化；未来可探索多跳推理中的分层Goldilocks Zone建模、跨模型泛化的边界迁移机制。
相关研究

ReAct: Synergizing Reasoning and Acting in Language Models (Wang et al., 2023); RAG-Token: Retrieval-Augmented Generation with Token-Level Evidence Selection (Liu et al., ACL 2024); Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (Asai et al., ICML 2024); DINO: Distilling Information from Noisy Observations for Robust Retrieval (Zhang et al., NeurIPS 2023); GRACE: Generative Retrieval Augmented Conversational Evaluation (Jiang et al., EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问