Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG

向作者提问

NEW

简介

检索增强生成（RAG）虽能将大语言模型（LLM）的响应锚定于外部证据，却将模型视为搜索结果的被动接收者：模型既无法感知语料库的整体组织结构，也无法知晓哪些内容尚未被检索，因而难以回溯探索或整合分散于各处的证据。本文提出 Corpus2Skill 方法：它在离线阶段将文档语料库提炼为一个分层的“技能目录”，并在服务阶段支持 LLM 智能体对其进行主动导航。其编译流程通过迭代方式完成——依次对文档进行聚类、在每一层级由 LLM 生成概括性摘要，并最终将结果物化为一棵可导航的“技能文件”树。在服务阶段，智能体首先获得语料库的全局概览，继而借助逐级细化的摘要，深入特定主题分支，并按文档 ID 精准调取完整文档。由于该层级结构完全显式可见，智能体得以自主推理应从何处着手检索、及时从无效路径中回退，并跨不同分支整合多源证据。在面向 RAG 的企业级客户支持评测基准 WixQA 上，Corpus2Skill 在全部质量指标上均显著优于稠密检索（dense retrieval）、RAPTOR 及各类基于智能体的 RAG 基线方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统RAG将LLM视为被动检索结果消费者，无法感知语料库结构、未检索内容或跨片段证据关联，导致回溯困难、路径不可控、证据整合能力弱；该论文旨在解决RAG中缺乏显式语义导航能力这一根本性局限。
关键思路

提出Corpus2Skill：离线将文档语料编译为可导航的层次化技能树（skill directory），通过迭代聚类+LLM摘要生成多级概要，将语料组织为‘主题分支→子技能→文档ID’的显式树结构；服务时LLM作为主动代理，基于全局视图逐层推理、钻取、回溯与跨分支聚合证据。
其它亮点

在企业级客服问答基准WixQA上全面超越dense retrieval、RAPTOR和agentic RAG基线；方法完全离线编译、服务时零梯度更新；树结构可解释、可调试、支持人工干预；未提开源代码，但pipeline设计清晰、模块解耦；值得深入的方向包括：技能树动态演化、多粒度摘要一致性建模、LLM代理的层次化规划强化学习。
相关研究

RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval; Active Retrieval Augmented Generation; Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection; Agent-RAG: An Agent Framework for Retrieval-Augmented Generation; TREE-OF-THOUGHTS: DELIBERATE PROBLEM SOLVING WITH LARGE LANGUAGE MODELS

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问