- 简介大型语言模型(LLMs)需要知识更新以满足不断增长的世界事实并纠正虚幻的响应,从而促进终身模型编辑的方法。更新的知识存储在哪里是模型编辑的一个基本问题。在本文中,我们发现编辑长期记忆(直接模型参数)或工作记忆(通过检索的神经网络激活/表示的非参数化知识)将导致一个不可能的三角形 - 可靠性,泛化性和局部性无法在终身编辑设置中同时实现。对于长期记忆,直接编辑参数会导致与不相关的预训练知识或先前的编辑发生冲突(可靠性和局部性差)。对于工作记忆,基于检索的激活几乎无法使模型理解编辑并进行泛化(泛化性差)。因此,我们提出WISE来弥合记忆之间的差距。在WISE中,我们设计了一个双参数记忆方案,其中包括预训练知识的主要记忆和编辑知识的侧记忆。我们只编辑侧面记忆中的知识,并训练路由器在给定查询时决定要经过哪个记忆。对于持续编辑,我们设计了一个知识分片机制,其中不同的编辑集驻留在参数的不同子空间中,并随后合并到共享内存中,而不会发生冲突。广泛的实验表明,WISE可以优于先前的模型编辑方法,并在终身模型编辑的问答,幻觉和超出分布设置中克服不可能的三角形,跨越流行的LLM架构,例如GPT,LLaMA和Mistral。代码将在https://github.com/zjunlp/EasyEdit发布。
- 图表
- 解决问题论文旨在解决LLMs在面对不断增长的世界知识时需要进行知识更新的问题,但如何将更新后的知识存储在记忆中成为一个基本问题。
- 关键思路WISE提出了一种双参数记忆方案,包括主要记忆和边缘记忆。只编辑边缘记忆中的知识,并训练一个路由器来决定查询时应经过哪个记忆。通过知识分片机制,将不同的编辑集合存储在不同的参数子空间中,并在没有冲突的情况下合并到共享记忆中。
- 其它亮点WISE方法可以在不同的LLMs架构(如GPT、LLaMA和Mistral)下,优于以前的模型编辑方法,并在问答、幻觉和超出分布设置下克服了终身模型编辑中的不可能三角。论文提供了开源代码。
- 最近相关研究包括《Lifelong Learning with Dynamically Expandable Networks》、《Continual Learning with Deep Generative Replay》等。
沙发等你来抢
去评论
评论
沙发等你来抢