- 简介近期大语言模型(LLMs)的快速发展,已使对话式人工智能代理能够开展持续数周乃至数月的长周期多轮交互。然而,现有记忆系统在处理随数月交互而动态演变的时间锚定事实与用户偏好方面仍显乏力,且缺乏针对长对话历史中多跳、时间敏感型查询的有效检索策略。为此,我们提出Chronos——一种全新的时序感知记忆框架:该框架将原始对话分解为带有时序范围解析与实体别名消歧的“主语–谓语–宾语”事件三元组,并将其分别索引至结构化的“事件日历”(Event Calendar)与保留完整对话上下文的“轮次日历”(Turn Calendar)中。在查询阶段,Chronos通过动态提示(dynamic prompting)为每个问题生成定制化的检索指引,明确指示代理应检索哪些内容、如何按时间范围进行筛选,以及如何借助在两个日历上迭代调用工具的循环机制,完成多跳推理。我们在LongMemEvalS基准测试集上对Chronos进行了评估;该基准包含500道题目,覆盖六类对话历史任务,实验中使用了8种开源与闭源大语言模型。其中,Chronos Low版本准确率达92.60%,Chronos High版本达95.60%,刷新了该任务的最高性能纪录,较此前最优系统提升7.67个百分点。消融实验结果表明,“事件日历”组件单独贡献了相较基线58.9%的性能增益,其余各模块则分别带来15.5%至22.3%不等的提升。尤为值得注意的是,仅采用轻量级配置的Chronos Low,在其自身设定下所取得的效果,已超越此前所有方法在其各自最强模型配置下的表现。
-
- 图表
- 解决问题现有大语言模型的记忆系统难以有效处理跨越数周至数月的长时程对话历史,尤其在时间敏感的事实推理、动态偏好建模及多跳时序查询(如'我上个月说想换咖啡品牌,后来试了哪三种?')方面存在根本性缺陷——缺乏显式时间结构化表示与协同检索机制。这是一个新问题:此前记忆研究聚焦短期上下文(<10轮)或静态知识库,尚未系统解决‘以月为粒度演化的对话语义记忆’这一挑战。
- 关键思路Chronos提出双日历结构化记忆范式:1)事件日历——将对话解析为带时间范围(datetime range)和实体别名(entity alias)的SVO三元组,实现事实的时间锚定;2)回合日历——保留原始对话文本以支持上下文重入;3)动态提示驱动的迭代工具调用——根据问题实时生成检索指令(查什么、何时查、如何链式推理),在两个日历间协同检索。核心新意在于将时间视为一等公民(first-class temporal grounding),而非后处理过滤条件。
- 其它亮点在LongMemEvalS基准(500题、6类长时对话任务)上,Chronos Low(轻量版)达92.60%准确率,Chronos High达95.60%,超越SOTA 7.67%;消融显示事件日历贡献58.9%增益,证明时间结构化是关键瓶颈;实验覆盖8个主流LLM(含GPT-4、Claude、Llama-3),验证框架通用性;论文未提代码开源,但基准LongMemEvalS已公开;值得深挖方向:事件解析鲁棒性(尤其模糊时间表达)、跨事件因果推理、与神经记忆(neural memory)的混合架构。
- Temporal Knowledge Graphs for LLM Memory (ACL 2023); Time-LLM: Temporal Prompting for Long-Horizon Forecasting (NeurIPS 2023); ChronoChat: Time-Aware Dialogue State Tracking (EMNLP 2023); Memory Networks with Temporal Attention (ICLR 2022); LongTermMemory: A Vector Database for Conversational Lifelong Learning (KDD 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流