- 简介这篇文章讲述了指令跟随的大型语言模型(LLMs),例如ChatGPT,已经越来越受到普通用户的欢迎,许多人将它们纳入了日常生活。然而,这些LLMs无意中泄露了个人或受版权保护的信息,这就需要一种机器遗忘方法来删除选择性知识。以前的尝试是试图忘记目标信息与其相关实体之间的链接,但这却导致生成与目标相关的不良响应,从而损害了最终用户的体验。在这项工作中,我们提出了SNAP,这是一个创新性的框架,旨在通过以下三个步骤有选择性地遗忘信息:1)使用负指令训练LLM生成模糊的响应,2)增加硬正样本以保留原始LLM的性能,3)应用新颖的Wasserstein正则化,以确保与LLM的初始权重有足够的偏差。我们在各种自然语言处理基准测试上评估了我们的框架,并证明我们的方法保留了原始LLM的能力,同时成功地遗忘了指定的信息。
- 图表
- 解决问题本论文旨在解决语言模型在执行任务时意外泄露个人或版权信息的问题,提出了一种机器遗忘方法,即选择性遗忘信息。此前的方法会导致模型生成与目标不相关的回答,影响用户体验。
- 关键思路本文提出了SNAP框架,通过训练带有负面指令的语言模型生成模糊的回答,同时增加硬正面样本以保留模型性能,并应用Wasserstein正则化来确保与初始权重的充分偏离,从而实现选择性遗忘信息的目的。
- 其它亮点本文在多个NLP基准测试上进行了评估,并证明了该方法可以保留语言模型的原始性能,同时成功地遗忘指定的信息。
- 最近的相关研究包括使用生成对抗网络来删除敏感信息的方法,以及使用知识蒸馏方法来减少模型的复杂性。
沙发等你来抢
去评论
评论
沙发等你来抢