- 简介深度研究(Deep Research)智能体正迅速成为现代检索系统的主要使用者。与人类用户不同——后者在发起和优化查询时通常不会记录其中间思考过程——深度研究智能体在每次调用搜索前,都会生成显式的自然语言推理过程,从而揭示出丰富而具体的意图与上下文信息;而现有检索器却完全忽视了这一关键信号。为充分利用这一长期被忽略的信息源,我们提出了两项创新:(1)“推理感知型检索”(Reasoning-Aware Retrieval),一种新型检索范式,它将智能体的推理轨迹与其原始查询联合编码、共同嵌入;(2)“DR-Synth”,一种数据合成方法,可从标准问答(QA)数据集中自动生成适用于深度研究场景的检索器训练数据。实验表明,上述两项技术各自均具备显著有效性,而二者结合所训练出的嵌入模型——AgentIR-4B——更实现了性能的大幅提升。在极具挑战性的BrowseComp-Plus评测基准上,AgentIR-4B配合开源权重智能体Tongyi-DeepResearch,准确率达到68%;相比之下,参数量为其两倍的传统嵌入模型仅达50%,而经典BM25方法仅为37%。相关代码与数据已开源,详见:https://texttron.github.io/AgentIR/。
-
- 图表
- 解决问题现有检索系统(如BM25、标准嵌入模型)将Deep Research智能体的搜索请求视为孤立查询,完全忽略其生成的自然语言推理轨迹(reasoning trace)——即代理在调用检索前显式表达的中间思考过程。该轨迹蕴含丰富意图与上下文信号,但传统检索器未建模,导致检索质量受限。论文验证:显式联合建模推理轨迹与查询可显著提升面向AI代理的检索性能。
- 关键思路提出Reasoning-Aware Retrieval范式:将代理的推理文本与查询拼接后联合编码为统一嵌入;并设计DR-Synth数据合成方法,无需人工标注,即可从标准QA数据集(如Natural Questions、TriviaQA)自动构造带推理-查询-文档三元组的训练样本,使检索模型能学习推理到相关文档的映射。
- 其它亮点1) AgentIR-4B模型在BrowseComp-Plus基准上达68%准确率(Tongyi-DeepResearch代理),超越两倍参数量的传统嵌入模型(50%)和BM25(37%);2) 实验严格解耦验证:Reasoning-Aware Retrieval和DR-Synth均独立有效;3) 全流程开源:代码、DR-Synth生成数据、AgentIR-4B模型权重及评测协议均已公开;4) 重要启示:检索系统设计需转向‘AI-first’范式,将LLM代理的推理作为一等公民信号而非噪声。
- Retrieval-Augmented Generation (RAG) with Chain-of-Thought (Shi et al., ACL 2023); Self-RAG (Asai et al., ICML 2023); Query2Doc (Nogueira et al., EMNLP 2023); ColBERTv2 (Santhanam et al., ACL 2022); Llama-Index’s query rewriting for agents (2023–2024); 'Reasoning as Search' frameworks (Creswell & Shanahan, NeurIPS 2023 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流