AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

向作者提问

NEW

简介

深度研究（Deep Research）智能体正迅速成为现代检索系统的主要使用者。与人类用户不同——后者在发起和优化查询时通常不会记录其中间思考过程——深度研究智能体在每次调用搜索前，都会生成显式的自然语言推理过程，从而揭示出丰富而具体的意图与上下文信息；而现有检索器却完全忽视了这一关键信号。为充分利用这一长期被忽略的信息源，我们提出了两项创新：（1）“推理感知型检索”（Reasoning-Aware Retrieval），一种新型检索范式，它将智能体的推理轨迹与其原始查询联合编码、共同嵌入；（2）“DR-Synth”，一种数据合成方法，可从标准问答（QA）数据集中自动生成适用于深度研究场景的检索器训练数据。实验表明，上述两项技术各自均具备显著有效性，而二者结合所训练出的嵌入模型——AgentIR-4B——更实现了性能的大幅提升。在极具挑战性的BrowseComp-Plus评测基准上，AgentIR-4B配合开源权重智能体Tongyi-DeepResearch，准确率达到68%；相比之下，参数量为其两倍的传统嵌入模型仅达50%，而经典BM25方法仅为37%。相关代码与数据已开源，详见：https://texttron.github.io/AgentIR/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有检索系统（如BM25、标准嵌入模型）将Deep Research智能体的搜索请求视为孤立查询，完全忽略其生成的自然语言推理轨迹（reasoning trace）——即代理在调用检索前显式表达的中间思考过程。该轨迹蕴含丰富意图与上下文信号，但传统检索器未建模，导致检索质量受限。论文验证：显式联合建模推理轨迹与查询可显著提升面向AI代理的检索性能。
关键思路

提出Reasoning-Aware Retrieval范式：将代理的推理文本与查询拼接后联合编码为统一嵌入；并设计DR-Synth数据合成方法，无需人工标注，即可从标准QA数据集（如Natural Questions、TriviaQA）自动构造带推理-查询-文档三元组的训练样本，使检索模型能学习推理到相关文档的映射。
其它亮点

1) AgentIR-4B模型在BrowseComp-Plus基准上达68%准确率（Tongyi-DeepResearch代理），超越两倍参数量的传统嵌入模型（50%）和BM25（37%）；2) 实验严格解耦验证：Reasoning-Aware Retrieval和DR-Synth均独立有效；3) 全流程开源：代码、DR-Synth生成数据、AgentIR-4B模型权重及评测协议均已公开；4) 重要启示：检索系统设计需转向‘AI-first’范式，将LLM代理的推理作为一等公民信号而非噪声。
相关研究

Retrieval-Augmented Generation (RAG) with Chain-of-Thought (Shi et al., ACL 2023); Self-RAG (Asai et al., ICML 2023); Query2Doc (Nogueira et al., EMNLP 2023); ColBERTv2 (Santhanam et al., ACL 2022); Llama-Index’s query rewriting for agents (2023–2024); 'Reasoning as Search' frameworks (Creswell & Shanahan, NeurIPS 2023 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问