LightMem: Lightweight and Efficient Memory-Augmented Generation

向作者提问

NEW

简介

尽管大语言模型（LLMs）具备卓越的能力，但在动态且复杂的环境中，它们仍难以有效利用历史交互信息。记忆系统通过引入持久的信息存储、检索和使用机制，使LLMs能够突破无状态交互的限制。然而，现有的记忆系统往往带来显著的时间和计算开销。为此，我们提出了一种新型记忆系统LightMem，在记忆系统的性能与效率之间实现了良好平衡。受人类记忆的Atkinson-Shiffrin模型启发，LightMem将记忆划分为三个互补阶段：首先，受认知科学启发的感知记忆通过轻量级压缩快速过滤无关信息，并按主题对信息进行分组；其次，具有主题感知能力的短期记忆对这些基于主题的组进行整合，以更有条理的方式组织和摘要内容，便于结构化访问；最后，带有“睡眠时更新”机制的长期记忆采用离线流程，将知识固化过程与在线推理解耦。在LongMemEval和LoCoMo两个评测基准上，基于GPT和Qwen作为基础模型的实验表明，LightMem持续优于强基线方法，问答准确率最高提升达7.7% / 29.3%，总令牌使用量最多减少38倍 / 20.9倍，API调用次数最多降低30倍 / 55.5倍；而在纯在线测试场景下成本更低，令牌消耗最多减少106倍 / 117倍，API调用次数最多减少159倍 / 310倍。代码已公开，地址为 https://github.com/zjunlp/LightMem。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决大型语言模型（LLMs）在动态复杂环境中难以有效利用历史交互信息的问题。尽管已有记忆系统帮助LLM引入持久化存储与检索机制，但现有方法通常带来显著的时间和计算开销。这并非全新问题，但如何在保持高效的同时提升记忆性能仍是一个关键挑战。
关键思路

受人类记忆的Atkinson-Shiffrin模型启发，论文提出LightMem，将记忆分为三个阶段：感知记忆（轻量压缩与主题过滤）、主题感知的短期记忆（结构化组织与摘要）和带有离线‘睡眠更新’的长期记忆（解耦在线推理与记忆固化）。该设计在性能与效率之间实现了良好平衡，核心新意在于模仿认知架构并分离在线/离线处理以降低实时成本。
其它亮点

实验在LongMemEval和LoCoMo两个基准上进行，使用GPT和Qwen作为基础模型，结果显示LightMem在QA准确率上最高提升7.7%/29.3%，总token消耗减少达38x/20.9x，API调用减少至多30x/55.5x；更重要的是，在纯在线测试阶段，token减少高达106x/117x，API调用减少达159x/310x。代码已开源：https://github.com/zjunlp/LightMem。未来可探索其在多模态、持续学习场景中的扩展。
相关研究

1. Memory-Augmented Large Language Models: A Survey (2023) 2. RETRO: Retrieval-Enhanced Transformer for Language Generation (NeurIPS 2022) 3. MEMIT: Mass-Editing Memory in a Transformer (ICLR 2023) 4. Hippo: Long-term Memory for Language Models (ICML 2023 Workshop) 5. LoCoMo: Benchmarking Long-term Context Memory in Large Language Models (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问