Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG

2026年04月16日
  • 简介
    检索增强生成(RAG)虽能将大语言模型(LLM)的响应锚定于外部证据,却将模型视为搜索结果的被动接收者:模型既无法感知语料库的整体组织结构,也无法知晓哪些内容尚未被检索,因而难以回溯探索或整合分散于各处的证据。本文提出 Corpus2Skill 方法:它在离线阶段将文档语料库提炼为一个分层的“技能目录”,并在服务阶段支持 LLM 智能体对其进行主动导航。其编译流程通过迭代方式完成——依次对文档进行聚类、在每一层级由 LLM 生成概括性摘要,并最终将结果物化为一棵可导航的“技能文件”树。在服务阶段,智能体首先获得语料库的全局概览,继而借助逐级细化的摘要,深入特定主题分支,并按文档 ID 精准调取完整文档。由于该层级结构完全显式可见,智能体得以自主推理应从何处着手检索、及时从无效路径中回退,并跨不同分支整合多源证据。在面向 RAG 的企业级客户支持评测基准 WixQA 上,Corpus2Skill 在全部质量指标上均显著优于稠密检索(dense retrieval)、RAPTOR 及各类基于智能体的 RAG 基线方法。
  • 作者讲解
  • 图表
  • 解决问题
    传统RAG将LLM视为被动检索结果消费者,无法感知语料库结构、未检索内容或跨片段证据关联,导致回溯困难、路径不可控、证据整合能力弱;该论文旨在解决RAG中缺乏显式语义导航能力这一根本性局限。
  • 关键思路
    提出Corpus2Skill:离线将文档语料编译为可导航的层次化技能树(skill directory),通过迭代聚类+LLM摘要生成多级概要,将语料组织为‘主题分支→子技能→文档ID’的显式树结构;服务时LLM作为主动代理,基于全局视图逐层推理、钻取、回溯与跨分支聚合证据。
  • 其它亮点
    在企业级客服问答基准WixQA上全面超越dense retrieval、RAPTOR和agentic RAG基线;方法完全离线编译、服务时零梯度更新;树结构可解释、可调试、支持人工干预;未提开源代码,但pipeline设计清晰、模块解耦;值得深入的方向包括:技能树动态演化、多粒度摘要一致性建模、LLM代理的层次化规划强化学习。
  • 相关研究
    RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval; Active Retrieval Augmented Generation; Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection; Agent-RAG: An Agent Framework for Retrieval-Augmented Generation; TREE-OF-THOUGHTS: DELIBERATE PROBLEM SOLVING WITH LARGE LANGUAGE MODELS
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问