WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models

简介

大型语言模型（LLMs）需要知识更新以满足不断增长的世界事实并纠正虚幻的响应，从而促进终身模型编辑的方法。更新的知识存储在哪里是模型编辑的一个基本问题。在本文中，我们发现编辑长期记忆（直接模型参数）或工作记忆（通过检索的神经网络激活/表示的非参数化知识）将导致一个不可能的三角形 - 可靠性，泛化性和局部性无法在终身编辑设置中同时实现。对于长期记忆，直接编辑参数会导致与不相关的预训练知识或先前的编辑发生冲突（可靠性和局部性差）。对于工作记忆，基于检索的激活几乎无法使模型理解编辑并进行泛化（泛化性差）。因此，我们提出WISE来弥合记忆之间的差距。在WISE中，我们设计了一个双参数记忆方案，其中包括预训练知识的主要记忆和编辑知识的侧记忆。我们只编辑侧面记忆中的知识，并训练路由器在给定查询时决定要经过哪个记忆。对于持续编辑，我们设计了一个知识分片机制，其中不同的编辑集驻留在参数的不同子空间中，并随后合并到共享内存中，而不会发生冲突。广泛的实验表明，WISE可以优于先前的模型编辑方法，并在终身模型编辑的问答，幻觉和超出分布设置中克服不可能的三角形，跨越流行的LLM架构，例如GPT，LLaMA和Mistral。代码将在https://github.com/zjunlp/EasyEdit发布。
图表
解决问题

论文旨在解决LLMs在面对不断增长的世界知识时需要进行知识更新的问题，但如何将更新后的知识存储在记忆中成为一个基本问题。
关键思路

WISE提出了一种双参数记忆方案，包括主要记忆和边缘记忆。只编辑边缘记忆中的知识，并训练一个路由器来决定查询时应经过哪个记忆。通过知识分片机制，将不同的编辑集合存储在不同的参数子空间中，并在没有冲突的情况下合并到共享记忆中。
其它亮点

WISE方法可以在不同的LLMs架构（如GPT、LLaMA和Mistral）下，优于以前的模型编辑方法，并在问答、幻觉和超出分布设置下克服了终身模型编辑中的不可能三角。论文提供了开源代码。
相关研究

最近相关研究包括《Lifelong Learning with Dynamically Expandable Networks》、《Continual Learning with Deep Generative Replay》等。

WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models

评论