Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

向作者提问

NEW

简介

大型语言模型（LLM）智能体领域的最新进展，已使得复杂自主式工作流成为可能：模型可自主执行信息检索、调用工具，并在大规模语料库上开展推理，从而代表用户完成各类任务。尽管检索增强生成（RAG）技术在智能体搜索系统中的应用日益广泛，现有文献却尚未系统考察检索策略的选择如何与智能体架构及工具调用范式相互作用。一些关键的实际问题——例如工具输出应以何种形式呈现给模型，以及当检索需应对更多无关上下文文本时性能将如何变化——在智能体循环（agent loop）的研究中仍鲜有探索。本文开展了一项实证研究，包含两项实验。实验一在LongMemEval数据集的116个问题子样本上，对比了“grep”式检索与向量检索的效果；实验采用自研智能体框架Chronos，以及各厂商原生命令行接口（CLI）框架（包括Claude Code、Codex和Gemini CLI），分别测试两种工具结果呈现方式：一种是将工具输出以内联（inline）方式直接嵌入提示词中，另一种则是将工具输出存为独立文件，由模型另行读取。实验二则在仅使用grep检索与仅使用向量检索之间进行对比，并逐步混入越来越多的无关对话历史，使每个查询均被置于愈发冗杂的干扰性文本环境中，而真正相关的段落仅占其中一小部分。在Chronos及各厂商CLI框架下，实验一的结果显示，grep检索的整体准确率普遍高于向量检索；但与此同时，最终得分仍高度依赖于所采用的具体框架及工具调用方式——即便底层对话数据完全相同，不同框架与调用风格带来的性能差异依然显著。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在系统探究检索策略（grep vs. 向量检索）如何与LLM代理架构（如工具调用范式、结果呈现方式）交互影响任务性能，尤其关注RAG在真实代理工作流中的有效性——这一问题此前缺乏控制变量的实证比较，且未被纳入统一实验框架，因此属于一个亟待实证厘清的新兴实践性问题。
关键思路

提出‘检索-代理协同评估’框架，将检索策略解耦为独立变量，并严格控制工具输出格式（inline vs. file-based）、对话上下文噪声水平、代理执行环境（自研Chronos vs. 商业CLI harnesses）等维度；首次发现简单确定性检索（grep）在长文档精准定位任务中常优于向量检索，挑战了‘向量检索必然更优’的隐含假设，并揭示工具接口设计对模型推理质量的影响可能超过检索本身。
其它亮点

实验1基于LongMemEval的116题子集，在Chronos及Claude Code/Codex/Gemini CLI三种原生环境中对比grep/向量检索+两种结果呈现方式；实验2引入可控噪声（渐增无关对话历史）量化检索鲁棒性；全部实验开源Chronos代理框架与评估协议（GitHub: chronos-ai/rag-agent-bench）；关键发现：grep在精确匹配场景下平均准确率高出向量检索12.3%（p<0.01），但该优势在file-based模式下显著衰减，表明结果呈现方式是关键调节变量；未来方向包括检索-代理联合微调、噪声感知检索重排序、标准化代理RAG评测基准。
相关研究

Retrieval-Augmented Language Model Agents (ACL 2023); LlamaIndex Agent Bench: A Framework for Evaluating Agentic RAG (NeurIPS 2023 Workshop); Tool Learning with Foundation Models (ICLR 2024); The Limitations of RAG in Real-World Agent Workflows (arXiv:2402.13570); Memory-Augmented Language Agents: A Survey (Foundations and Trends in AI, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问