- 简介检索增强生成(RAG)已成为将大语言模型与外部知识相锚定的一项基础性范式。尽管自适应检索机制提升了检索效率,但现有方法仍将检索后失败简单视为需要重试的信号,而非用于深入诊断——因而未能触及查询与证据之间错位现象背后的结构性成因。我们发现,大量反复出现的检索失败并非源于相关证据的缺失,而主要源自查询与证据所在语义空间之间的对齐鸿沟。为此,我们提出Skill-RAG:一种具备失败感知能力的RAG框架,它将一个轻量级隐状态探测器(prober)与一个基于提示词的技能路由模块(skill router)有机结合。该探测器在RAG流程的两个关键阶段实施检索门控;一旦识别出失败状态,技能路由模块即刻诊断其根本原因,并从四种检索技能中择一启用——包括查询重写、问题分解、证据聚焦,以及针对真正不可约简情形的“退出”技能——从而在下一轮生成尝试之前主动修正查询与证据之间的错位。我们在多个开放域问答及复杂推理基准测试上开展实验,结果表明:Skill-RAG显著提升了多轮检索后仍难以解决的困难样本上的准确率,尤其在分布外(out-of-distribution)数据集上增益尤为突出。进一步的表征空间分析揭示,所提出的各类技能在失败状态空间中各自占据结构清晰、彼此可分的区域,这有力支持了如下观点:查询与证据之间的错位并非单一、笼统的现象,而是一种具有明确类型学特征的多类问题。
-
- 图表
- 解决问题现有RAG系统将检索失败简单视为需重试的信号,而非可诊断的结构性问题;论文指出核心挑战在于查询与证据空间之间的‘对齐鸿沟’(alignment gap)——即相关证据存在,但因语义、粒度或视角不匹配而未被检出,这不是传统检索精度问题,而是跨空间映射失准问题。该问题在多轮检索后仍持续的难例中尤为突出,此前未被系统建模为可分类、可干预的失败类型。
- 关键思路提出Skill-RAG框架:首次将检索失败视为需结构化诊断的‘技能适配问题’,通过轻量级隐藏状态探针(prober)实时识别失败状态,并由基于提示的技能路由器(skill router)将失败归因于四类可解释原因(查询改写/问题分解/证据聚焦/不可解退出),动态激活对应修正技能。其新意在于将RAG从‘重试范式’转向‘诊断-修复范式’,且技能划分基于实证可分的失败表征空间,而非启发式规则。
- 其它亮点在多个开放域QA(HotpotQA、2WikiMQA)和复杂推理(MuSiQue、IIRC)基准上验证,尤其在OOD数据集(如FEVER-OOD)上准确率提升显著;通过表示空间分析证实四类失败状态在探针隐藏空间中线性可分;框架轻量、无需微调检索器或LLM;论文未提代码开源,但方法设计高度模块化,便于复现;值得深入的方向包括:失败表征的理论边界分析、技能路由与检索器联合优化、向多模态RAG迁移。
- REPLUG: Retrieval-Augmented Black-Box Language Models (2023); RAG-Token: Fine-grained Attribution in Retrieval-Augmented Generation (2024); Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (2023); Adaptive-RAG: Dynamic Retrieval Granularity for Complex Questions (2024); Failure-Aware Prompting for LLMs (NeurIPS 2023 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流