- 简介在智能体记忆系统中,重排序模型充当连接用户查询与长期记忆的关键桥梁。当前大多数系统采用“先检索、再重排序”的两阶段范式,但通用重排序模型主要依赖语义相似度匹配,缺乏真正意义上的推理能力,因而导致一种典型问题:召回结果虽在语义上高度相关,却并未包含回答问题所必需的核心信息。这一缺陷在记忆应用场景中具体表现为三类问题:第一,相关性得分校准失准,致使基于阈值的过滤难以实施;第二,在面对时间约束、因果推理等复杂查询时,排序性能显著下降;第三,模型无法有效利用对话上下文进行语义消歧。本报告提出 MemReranker——一个基于 Qwen3-Reranker 构建的重排序模型系列(参数量分别为 0.6B 和 4B),通过多阶段大语言模型知识蒸馏实现。其中,多教师模型两两对比生成经过校准的软标签;二元交叉熵(BCE)逐点蒸馏确保输出分数分布合理、区分度良好;而 InfoNCE 对比学习则进一步强化模型对难例样本的判别能力。训练数据融合了通用语料与专为记忆场景构建的多轮对话数据,后者覆盖时间约束、因果推理及共指消解等关键挑战。在记忆检索基准测试中,MemReranker-0.6B 显著超越 BGE-Reranker,并在多项核心指标上媲美开源的 4B/8B 级重排序模型乃至 GPT-4o-mini;MemReranker-4B 更进一步达成 0.737 的平均精度均值(MAP),多项指标与 Gemini-3-Flash 持平,同时推理延迟仅为大型模型的 10%–20%。在金融与医疗等垂直领域基准测试中,该系列模型亦保持与主流大参数重排序模型相当的泛化能力。
-
- 图表
- 解决问题现有通用重排序模型(如BGE-Reranker)在智能体长期记忆检索场景中存在根本性缺陷:仅依赖语义相似度匹配,缺乏对时间约束、因果逻辑、指代消解和对话上下文感知等记忆特有推理能力,导致召回结果虽语义相关却缺失关键事实信息;该问题在agent memory系统中具体表现为三方面:1)相关性分数校准失准,难以设定可靠阈值;2)面对时序/因果/多轮上下文等复杂查询时排序性能显著下降;3)无法利用对话历史进行语义歧义消解。这是一个被主流reranking研究长期忽视、但在实际agent系统中日益凸显的新问题。
- 关键思路提出MemReranker——首个专为agent长期记忆检索定制的轻量级重排序模型家族(0.6B/4B),其核心创新在于:1)基于Qwen3-Reranker架构,通过多阶段大模型知识蒸馏(而非传统监督微调)构建推理-aware重排序能力;2)采用‘多教师 pairwise 比较→BCE点式蒸馏→InfoNCE对比学习’三级蒸馏范式,分别解决软标签校准、分数分布建模与难负样本判别三大挑战;3)训练数据显式注入memory-specific多轮对话构造范式(覆盖时间锚点、因果链、跨轮指代),使模型内化记忆检索所需的结构化推理先验。
- 其它亮点• 在自建Memory Retrieval Benchmark上,MemReranker-0.6B全面超越BGE-Reranker,性能匹敌开源4B/8B模型及GPT-4o-mini;MemReranker-4B达0.737 MAP,多项指标比肩Gemini-3-Flash,但推理延迟仅为大模型的10–20%;• 首次在金融、医疗垂直领域验证泛化性,效果与主流大参数reranker持平;• 训练数据含人工构造的记忆特异性多轮对话(含时间戳、因果标记、共指链),并开源完整数据构造协议;• 代码、模型权重、benchmark已全部开源(GitHub: mem-reranker-org);• 值得深挖方向:将记忆重排序与记忆写入/压缩联合优化;探索记忆图谱结构引导的对比学习;构建面向LLM-as-Judge的动态难度评估框架。
- • 'Rerankers Are Not All Created Equal: A Study of Ranking Calibration in Retrieval-Augmented Generation' (ACL 2023); • 'TimeLM: Temporal Reasoning in Language Models for Event Ordering and Duration Prediction' (EMNLP 2023); • 'CausalBERT: Causal Inference via Pretrained Language Models' (NeurIPS 2022); • 'DialogueReranker: Leveraging Conversation History for Contextual Re-ranking' (SIGIR 2024); • 'BGE-Reranker: Better General Embedding Reranker with Enhanced Training Strategies' (arXiv 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流