Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective

2024年07月24日
  • 简介
    本文研究了一种先驱性但尚未被充分理解的LLM去学习方法——Who's Harry Potter (WHP)。我们分两步探讨这种方法。首先,我们提出了一项新的LLM有针对性去学习任务,即在给定去学习目标(例如一个人)和一些去学习文档的情况下,我们旨在只去学习有关目标的信息,而不是文档中的所有信息。我们进一步认为,成功的去学习应满足一些标准,比如不能输出无意义的信息,不能捏造有关去学习目标的事实,并且不能在越狱攻击下泄露事实信息。其次,我们构建了一个有针对性去学习的因果干预框架,其中去学习目标的知识被建模为LLM输入和输出之间的混淆因素,并且去学习过程被建模为去混淆过程。这个框架证明并扩展了WHP,推导出一个简单的去学习算法,其中包括WHP作为一个特殊情况。对现有和新数据集的实验表明,我们的方法在所有这些标准方面都取得了有竞争力的表现,而且没有明确地优化这些标准。我们的代码可在https://github.com/UCSB-NLP-Chang/causal_unlearn.git上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在研究LMM无效学习的先驱性方法Who's Harry Potter(WHP),并探索针对性无效学习的新任务和因果干预框架。
  • 关键思路
    本文提出了针对性无效学习的新任务,并构建了一个因果干预框架,将无效学习目标建模为混淆因素,推导出包括WHP在内的简单无效学习算法。
  • 其它亮点
    本文的亮点包括引入了针对性无效学习任务,提出了因果干预框架,推导出简单无效学习算法。实验结果表明,该方法在各个数据集上都取得了竞争性的表现。代码已经开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:《A Survey of Unsupervised Learning》、《The Limitations of Deep Learning in Adversarial Settings》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问