Human-like Episodic Memory for Infinite Context LLMs

2024年07月12日
  • 简介
    大型语言模型(LLMs)展现出了惊人的能力,但仍然难以处理广泛的上下文,限制了它们在长序列上保持连贯性和准确性的能力。相比之下,人类大脑擅长组织和检索跨越整个生命周期的情节体验,涵盖了广泛的时间尺度。在这项工作中,我们介绍了EM-LLM,一种将人类情节记忆和事件认知的关键方面融入LLMs的新方法,使它们能够有效地处理实际上无限的上下文长度,同时保持计算效率。EM-LLM使用贝叶斯惊奇和基于图论的边界细化将令牌序列组织成连贯的情节事件,并以在线方式实现。必要时,这些事件通过两阶段记忆过程检索,结合基于相似度和时间上连续检索,以高效和类似于人类的方式访问相关信息。在LongBench数据集上的实验表明,EM-LLM具有卓越的性能,在各种任务中相对于最先进的InfLLM模型有4.3%的整体相对改进,包括在PassageRetrieval任务中提高了33%。此外,我们的分析揭示了EM-LLM的事件分割与人类感知事件之间的强相关性,表明了这个人造系统与其生物学对应物之间的桥梁。这项工作不仅提高了LLMs处理扩展上下文的能力,而且为探索人类记忆机制提供了计算框架,为AI和认知科学的跨学科研究开辟了新的途径。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图提出一种新的方法,将人类情景记忆和事件认知的关键方面整合到大型语言模型中,从而解决长序列处理的问题。
  • 关键思路
    论文提出了一种新的方法,将序列分成连贯的情景事件,并使用两阶段记忆过程来检索这些事件,从而使大型语言模型能够有效地处理长序列。
  • 其它亮点
    论文使用LongBench数据集进行实验,表明EM-LLM模型在各种任务中的表现优于当前最先进的InfLLM模型,包括在PassageRetrieval任务中的33%的相对改进。此外,EM-LLM的事件分割与人类感知事件之间存在强烈的相关性。
  • 相关研究
    近期的相关研究包括《GPT-3》、《XLNet》和《Transformer-XL》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问