- 简介大型语言模型(LLMs)不可避免地从训练语料库中记忆敏感、受版权保护和有害的知识;因此,从模型中清除此类知识至关重要。机器遗忘是一种有效的解决方案,可以通过事后修改模型来高效地删除特定的知识。在本文中,我们提出了一个用于LLM遗忘的现实世界知识遗忘基准(RWKU)。RWKU基于以下三个关键因素设计:(1)对于任务设置,我们考虑了一个更实际和具有挑战性的遗忘设置,在该设置中,既不能访问忘记语料库,也不能访问保留语料库。(2)对于知识来源,我们选择了200个现实世界著名人物作为遗忘目标,并展示了这些热门知识在各种LLMs中广泛存在。(3)对于评估框架,我们设计了忘记集和保留集,以评估模型在各种现实世界应用中的能力。关于忘记集,我们提供了四种成员推断攻击(MIA)方法和九种对抗攻击探针,以严格测试遗忘效果。关于保留集,我们评估了邻居扰动、通用能力、推理能力、真实性、事实性和流畅性方面的局部性和效用。我们在两个遗忘场景、两个模型和六种基线方法上进行了广泛的实验,并获得了一些有意义的发现。我们公开发布了我们的基准和代码,网址为http://rwku-bench.github.io,以供未来的研究使用。
- 图表
- 解决问题如何高效地从大型语言模型中删除敏感、受版权保护和有害的知识?本文旨在提出一种机器遗忘(unlearning)的解决方案,以后处理修改模型的方式来删除特定知识。同时,本文提出了一个实际的、具有挑战性的遗忘基准测试(RWKU),用于评估模型在各种真实世界应用中的能力。
- 关键思路本文提出了一种机器遗忘的方法,通过后处理修改模型来删除特定知识,同时设计了一个实际的、具有挑战性的遗忘基准测试,用于评估模型在各种真实世界应用中的能力。
- 其它亮点本文选择了200个真实世界著名人物作为遗忘目标,并展示了这些知识在各种大型语言模型中的广泛存在。同时,本文提供了四种成员推理攻击方法和九种敌对攻击探针来严格测试遗忘效果。在实验中,本文使用两种模型和六种基准方法进行了广泛的实验,并获得了一些有意义的发现。本文的基准测试和代码已公开发布,供未来研究使用。
- 最近在这个领域中,还有一些相关的研究,如《MEMO: A Meta-Learning Approach to Train Large-scale Models with Multiple Experts》、《Memorization and Forgetting in Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢