Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

向作者提问

NEW

简介

检索增强生成（RAG）已成为将大语言模型与外部知识相锚定的一项基础性范式。尽管自适应检索机制提升了检索效率，但现有方法仍将检索后失败简单视为需要重试的信号，而非用于深入诊断——因而未能触及查询与证据之间错位现象背后的结构性成因。我们发现，大量反复出现的检索失败并非源于相关证据的缺失，而主要源自查询与证据所在语义空间之间的对齐鸿沟。为此，我们提出Skill-RAG：一种具备失败感知能力的RAG框架，它将一个轻量级隐状态探测器（prober）与一个基于提示词的技能路由模块（skill router）有机结合。该探测器在RAG流程的两个关键阶段实施检索门控；一旦识别出失败状态，技能路由模块即刻诊断其根本原因，并从四种检索技能中择一启用——包括查询重写、问题分解、证据聚焦，以及针对真正不可约简情形的“退出”技能——从而在下一轮生成尝试之前主动修正查询与证据之间的错位。我们在多个开放域问答及复杂推理基准测试上开展实验，结果表明：Skill-RAG显著提升了多轮检索后仍难以解决的困难样本上的准确率，尤其在分布外（out-of-distribution）数据集上增益尤为突出。进一步的表征空间分析揭示，所提出的各类技能在失败状态空间中各自占据结构清晰、彼此可分的区域，这有力支持了如下观点：查询与证据之间的错位并非单一、笼统的现象，而是一种具有明确类型学特征的多类问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有RAG系统将检索失败简单视为需重试的信号，而非可诊断的结构性问题；论文指出核心挑战在于查询与证据空间之间的‘对齐鸿沟’（alignment gap）——即相关证据存在，但因语义、粒度或视角不匹配而未被检出，这不是传统检索精度问题，而是跨空间映射失准问题。该问题在多轮检索后仍持续的难例中尤为突出，此前未被系统建模为可分类、可干预的失败类型。
关键思路

提出Skill-RAG框架：首次将检索失败视为需结构化诊断的‘技能适配问题’，通过轻量级隐藏状态探针（prober）实时识别失败状态，并由基于提示的技能路由器（skill router）将失败归因于四类可解释原因（查询改写/问题分解/证据聚焦/不可解退出），动态激活对应修正技能。其新意在于将RAG从‘重试范式’转向‘诊断-修复范式’，且技能划分基于实证可分的失败表征空间，而非启发式规则。
其它亮点

在多个开放域QA（HotpotQA、2WikiMQA）和复杂推理（MuSiQue、IIRC）基准上验证，尤其在OOD数据集（如FEVER-OOD）上准确率提升显著；通过表示空间分析证实四类失败状态在探针隐藏空间中线性可分；框架轻量、无需微调检索器或LLM；论文未提代码开源，但方法设计高度模块化，便于复现；值得深入的方向包括：失败表征的理论边界分析、技能路由与检索器联合优化、向多模态RAG迁移。
相关研究

REPLUG: Retrieval-Augmented Black-Box Language Models (2023); RAG-Token: Fine-grained Attribution in Retrieval-Augmented Generation (2024); Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (2023); Adaptive-RAG: Dynamic Retrieval Granularity for Complex Questions (2024); Failure-Aware Prompting for LLMs (NeurIPS 2023 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问