To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

2024年07月02日
  • 简介
    大型语言模型(LLM)经过广泛语料库的训练,不可避免地保留了敏感数据,例如个人隐私信息和受版权保护的材料。最近知识遗忘方面的进展包括更新LLM参数以消除特定知识。然而,目前的遗忘范式陷入模糊的遗忘边界,经常会不加区分地抹除知识。在这项工作中,我们引入了KnowUnDo基准测试,其中包含受版权保护的内容和用户隐私领域,以评估遗忘过程是否意外抹除了关键知识。我们的研究结果表明,现有的遗忘方法经常遭受过度遗忘。为了解决这个问题,我们提出了一种简单而有效的方法MemFlex,利用梯度信息精确地定位和遗忘敏感参数。实验结果表明,MemFlex在LLM的精确知识遗忘和一般知识保留方面优于现有方法。代码和数据集将发布在https://github.com/zjunlp/KnowUnDo。
  • 图表
  • 解决问题
    如何精确删除大型语言模型中的敏感数据,避免误删必要的知识?
  • 关键思路
    提出了一种基于梯度信息的新方法MemFlex,能够更精确地删除敏感参数,避免误删必要的知识。
  • 其它亮点
    论文提出了一个新的基准测试数据集KnowUnDo,用于评估当前的知识删除方法是否会误删必要的知识。实验结果表明,MemFlex方法在精确删除敏感数据和保留必要知识方面都优于现有方法。
  • 相关研究
    最近的相关研究包括使用不同的方法删除大型语言模型中的敏感数据,如知识蒸馏、模型修剪和知识重置等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论