- 简介在智能体记忆系统中,重排序模型(reranking model)是连接用户查询与长期记忆的关键桥梁。当前多数系统采用“先检索、后重排序”的两阶段范式,但通用重排序模型主要依赖语义相似度匹配,缺乏真正的推理能力,从而导致一个典型问题:召回结果虽在语义上高度相关,却未必包含回答问题所必需的核心信息。这一缺陷在记忆检索场景中具体表现为三类问题:第一,相关性得分校准失准,致使基于阈值的过滤难以实施;第二,在面对时间约束、因果推理等复杂查询时,排序性能显著下降;第三,模型无法有效利用对话上下文进行语义消歧。本报告提出 MemReranker——一个基于 Qwen3-Reranker 构建的重排序模型系列(参数量分别为 0.6B 和 4B),其核心技术路径为多阶段大语言模型知识蒸馏。具体而言,通过多教师模型(multi-teacher)的成对比较生成经过校准的软标签(calibrated soft labels);采用二元交叉熵(BCE)点式蒸馏(pointwise distillation),确保输出得分具有良好的分布特性;并引入 InfoNCE 对比学习(contrastive learning),以增强模型对难例样本(hard samples)的判别能力。训练数据融合了通用语料与面向记忆任务的多轮对话数据,后者专门覆盖时间约束、因果推理及共指消解(coreference resolution)等关键挑战。在记忆检索基准测试中,MemReranker-0.6B 显著超越 BGE-Reranker,并在多项核心指标上达到与开源 4B/8B 模型及 GPT-4o-mini 相当的水平;而 MemReranker-4B 进一步实现 0.737 的平均精度均值(MAP),多项指标与 Gemini-3-Flash 持平,同时推理延迟仅为大型模型的 10%–20%。在金融与医疗等垂直领域基准测试中,该系列模型亦展现出与主流大参数重排序模型相当的泛化能力。
-
- 图表
- 解决问题现有通用重排序模型(如BGE-Reranker)在智能体长期记忆检索中严重依赖语义相似性匹配,缺乏对时间约束、因果推理、指代消解和对话上下文感知等记忆特有认知能力的建模,导致召回结果虽语义相关但关键信息缺失;该问题在agent memory系统中表现为三重缺陷:相关性分数校准失准、复杂查询下排序退化、无法利用对话历史进行语义消歧。
- 关键思路提出MemReranker系列模型(0.6B/4B),基于Qwen3-Reranker架构,通过多阶段大模型知识蒸馏实现记忆感知重排序能力:1)多教师 pairwise 比较生成校准软标签,解决分数可比性与阈值敏感问题;2)BCE pointwise 蒸馏构建良好分布的绝对打分能力;3)InfoNCE对比学习强化对难负样本(如时间邻近但逻辑无关、共指但非目标事件)的判别力;训练数据首次系统融合通用语料与记忆专属多轮对话数据(覆盖时序、因果、共指三大挑战)。
- 其它亮点在自建Memory Retrieval Benchmark上,MemReranker-0.6B显著超越BGE-Reranker,性能媲美开源4B/8B模型及GPT-4o-mini;MemReranker-4B达0.737 MAP,多项指标比肩Gemini-3-Flash,推理延迟仅为大模型的10–20%;在金融、医疗垂直领域benchmark中保持强泛化性;训练数据含高质量人工构造+LLM合成的记忆特异性多轮对话(已开源部分);代码与模型权重计划开源(论文提及‘即将发布’);未来方向包括:记忆-规划联合优化、动态记忆衰减建模、跨会话长期一致性建模。
- BGE-Reranker: Bridging the Gap Between General and Domain-Specific Rerankers (ACL 2023); ColBERTv2: Effective and Efficient Retrieval via Lightweight Contextualization (EMNLP 2022); RankGPT: Improving LLM-based Ranking with Listwise Optimization (SIGIR 2023); Memory-Augmented Language Models: A Survey (arXiv:2310.13579); Agent Memory Benchmarks: Towards Evaluating Long-Term Recall in Conversational Agents (NeurIPS 2023 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流