WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models

2024年05月23日
  • 简介
    大型语言模型(LLMs)需要知识更新以满足不断增长的世界事实并纠正虚幻的响应,从而促进终身模型编辑的方法。更新的知识存储在哪里是模型编辑的一个基本问题。在本文中,我们发现编辑长期记忆(直接模型参数)或工作记忆(通过检索的神经网络激活/表示的非参数化知识)将导致一个不可能的三角形 - 可靠性,泛化性和局部性无法在终身编辑设置中同时实现。对于长期记忆,直接编辑参数会导致与不相关的预训练知识或先前的编辑发生冲突(可靠性和局部性差)。对于工作记忆,基于检索的激活几乎无法使模型理解编辑并进行泛化(泛化性差)。因此,我们提出WISE来弥合记忆之间的差距。在WISE中,我们设计了一个双参数记忆方案,其中包括预训练知识的主要记忆和编辑知识的侧记忆。我们只编辑侧面记忆中的知识,并训练路由器在给定查询时决定要经过哪个记忆。对于持续编辑,我们设计了一个知识分片机制,其中不同的编辑集驻留在参数的不同子空间中,并随后合并到共享内存中,而不会发生冲突。广泛的实验表明,WISE可以优于先前的模型编辑方法,并在终身模型编辑的问答,幻觉和超出分布设置中克服不可能的三角形,跨越流行的LLM架构,例如GPT,LLaMA和Mistral。代码将在https://github.com/zjunlp/EasyEdit发布。
  • 图表
  • 解决问题
    论文旨在解决LLMs在面对不断增长的世界知识时需要进行知识更新的问题,但如何将更新后的知识存储在记忆中成为一个基本问题。
  • 关键思路
    WISE提出了一种双参数记忆方案,包括主要记忆和边缘记忆。只编辑边缘记忆中的知识,并训练一个路由器来决定查询时应经过哪个记忆。通过知识分片机制,将不同的编辑集合存储在不同的参数子空间中,并在没有冲突的情况下合并到共享记忆中。
  • 其它亮点
    WISE方法可以在不同的LLMs架构(如GPT、LLaMA和Mistral)下,优于以前的模型编辑方法,并在问答、幻觉和超出分布设置下克服了终身模型编辑中的不可能三角。论文提供了开源代码。
  • 相关研究
    最近相关研究包括《Lifelong Learning with Dynamically Expandable Networks》、《Continual Learning with Deep Generative Replay》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论