- 简介尽管大语言模型(LLMs)具备卓越的能力,但在动态且复杂的环境中,它们仍难以有效利用历史交互信息。记忆系统通过引入持久的信息存储、检索和使用机制,使LLMs能够突破无状态交互的限制。然而,现有的记忆系统往往带来显著的时间和计算开销。为此,我们提出了一种新型记忆系统LightMem,在记忆系统的性能与效率之间实现了良好平衡。受人类记忆的Atkinson-Shiffrin模型启发,LightMem将记忆划分为三个互补阶段:首先,受认知科学启发的感知记忆通过轻量级压缩快速过滤无关信息,并按主题对信息进行分组;其次,具有主题感知能力的短期记忆对这些基于主题的组进行整合,以更有条理的方式组织和摘要内容,便于结构化访问;最后,带有“睡眠时更新”机制的长期记忆采用离线流程,将知识固化过程与在线推理解耦。在LongMemEval和LoCoMo两个评测基准上,基于GPT和Qwen作为基础模型的实验表明,LightMem持续优于强基线方法,问答准确率最高提升达7.7% / 29.3%,总令牌使用量最多减少38倍 / 20.9倍,API调用次数最多降低30倍 / 55.5倍;而在纯在线测试场景下成本更低,令牌消耗最多减少106倍 / 117倍,API调用次数最多减少159倍 / 310倍。代码已公开,地址为 https://github.com/zjunlp/LightMem。
-
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)在动态复杂环境中难以有效利用历史交互信息的问题。尽管已有记忆系统帮助LLM引入持久化存储与检索机制,但现有方法通常带来显著的时间和计算开销。这并非全新问题,但如何在保持高效的同时提升记忆性能仍是一个关键挑战。
- 关键思路受人类记忆的Atkinson-Shiffrin模型启发,论文提出LightMem,将记忆分为三个阶段:感知记忆(轻量压缩与主题过滤)、主题感知的短期记忆(结构化组织与摘要)和带有离线‘睡眠更新’的长期记忆(解耦在线推理与记忆固化)。该设计在性能与效率之间实现了良好平衡,核心新意在于模仿认知架构并分离在线/离线处理以降低实时成本。
- 其它亮点实验在LongMemEval和LoCoMo两个基准上进行,使用GPT和Qwen作为基础模型,结果显示LightMem在QA准确率上最高提升7.7%/29.3%,总token消耗减少达38x/20.9x,API调用减少至多30x/55.5x;更重要的是,在纯在线测试阶段,token减少高达106x/117x,API调用减少达159x/310x。代码已开源:https://github.com/zjunlp/LightMem。未来可探索其在多模态、持续学习场景中的扩展。
- 1. Memory-Augmented Large Language Models: A Survey (2023) 2. RETRO: Retrieval-Enhanced Transformer for Language Generation (NeurIPS 2022) 3. MEMIT: Mass-Editing Memory in a Transformer (ICLR 2023) 4. Hippo: Long-term Memory for Language Models (ICML 2023 Workshop) 5. LoCoMo: Benchmarking Long-term Context Memory in Large Language Models (2024)
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流