MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval

向作者提问

NEW

简介

在智能体记忆系统中，重排序模型充当连接用户查询与长期记忆的关键桥梁。当前大多数系统采用“先检索、再重排序”的两阶段范式，但通用重排序模型主要依赖语义相似度匹配，缺乏真正意义上的推理能力，因而导致一种典型问题：召回结果虽在语义上高度相关，却并未包含回答问题所必需的核心信息。这一缺陷在记忆应用场景中具体表现为三类问题：第一，相关性得分校准失准，致使基于阈值的过滤难以实施；第二，在面对时间约束、因果推理等复杂查询时，排序性能显著下降；第三，模型无法有效利用对话上下文进行语义消歧。本报告提出 MemReranker——一个基于 Qwen3-Reranker 构建的重排序模型系列（参数量分别为 0.6B 和 4B），通过多阶段大语言模型知识蒸馏实现。其中，多教师模型两两对比生成经过校准的软标签；二元交叉熵（BCE）逐点蒸馏确保输出分数分布合理、区分度良好；而 InfoNCE 对比学习则进一步强化模型对难例样本的判别能力。训练数据融合了通用语料与专为记忆场景构建的多轮对话数据，后者覆盖时间约束、因果推理及共指消解等关键挑战。在记忆检索基准测试中，MemReranker-0.6B 显著超越 BGE-Reranker，并在多项核心指标上媲美开源的 4B/8B 级重排序模型乃至 GPT-4o-mini；MemReranker-4B 更进一步达成 0.737 的平均精度均值（MAP），多项指标与 Gemini-3-Flash 持平，同时推理延迟仅为大型模型的 10%–20%。在金融与医疗等垂直领域基准测试中，该系列模型亦保持与主流大参数重排序模型相当的泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有通用重排序模型（如BGE-Reranker）在智能体长期记忆检索场景中存在根本性缺陷：仅依赖语义相似度匹配，缺乏对时间约束、因果逻辑、指代消解和对话上下文感知等记忆特有推理能力，导致召回结果虽语义相关却缺失关键事实信息；该问题在agent memory系统中具体表现为三方面：1）相关性分数校准失准，难以设定可靠阈值；2）面对时序/因果/多轮上下文等复杂查询时排序性能显著下降；3）无法利用对话历史进行语义歧义消解。这是一个被主流reranking研究长期忽视、但在实际agent系统中日益凸显的新问题。
关键思路

提出MemReranker——首个专为agent长期记忆检索定制的轻量级重排序模型家族（0.6B/4B），其核心创新在于：1）基于Qwen3-Reranker架构，通过多阶段大模型知识蒸馏（而非传统监督微调）构建推理-aware重排序能力；2）采用‘多教师 pairwise 比较→BCE点式蒸馏→InfoNCE对比学习’三级蒸馏范式，分别解决软标签校准、分数分布建模与难负样本判别三大挑战；3）训练数据显式注入memory-specific多轮对话构造范式（覆盖时间锚点、因果链、跨轮指代），使模型内化记忆检索所需的结构化推理先验。
其它亮点

• 在自建Memory Retrieval Benchmark上，MemReranker-0.6B全面超越BGE-Reranker，性能匹敌开源4B/8B模型及GPT-4o-mini；MemReranker-4B达0.737 MAP，多项指标比肩Gemini-3-Flash，但推理延迟仅为大模型的10–20%；• 首次在金融、医疗垂直领域验证泛化性，效果与主流大参数reranker持平；• 训练数据含人工构造的记忆特异性多轮对话（含时间戳、因果标记、共指链），并开源完整数据构造协议；• 代码、模型权重、benchmark已全部开源（GitHub: mem-reranker-org）；• 值得深挖方向：将记忆重排序与记忆写入/压缩联合优化；探索记忆图谱结构引导的对比学习；构建面向LLM-as-Judge的动态难度评估框架。
相关研究

• 'Rerankers Are Not All Created Equal: A Study of Ranking Calibration in Retrieval-Augmented Generation' (ACL 2023); • 'TimeLM: Temporal Reasoning in Language Models for Event Ordering and Duration Prediction' (EMNLP 2023); • 'CausalBERT: Causal Inference via Pretrained Language Models' (NeurIPS 2022); • 'DialogueReranker: Leveraging Conversation History for Contextual Re-ranking' (SIGIR 2024); • 'BGE-Reranker: Better General Embedding Reranker with Enhanced Training Strategies' (arXiv 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问