Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective

简介

本文研究了一种先驱性但尚未被充分理解的LLM去学习方法——Who's Harry Potter (WHP)。我们分两步探讨这种方法。首先，我们提出了一项新的LLM有针对性去学习任务，即在给定去学习目标（例如一个人）和一些去学习文档的情况下，我们旨在只去学习有关目标的信息，而不是文档中的所有信息。我们进一步认为，成功的去学习应满足一些标准，比如不能输出无意义的信息，不能捏造有关去学习目标的事实，并且不能在越狱攻击下泄露事实信息。其次，我们构建了一个有针对性去学习的因果干预框架，其中去学习目标的知识被建模为LLM输入和输出之间的混淆因素，并且去学习过程被建模为去混淆过程。这个框架证明并扩展了WHP，推导出一个简单的去学习算法，其中包括WHP作为一个特殊情况。对现有和新数据集的实验表明，我们的方法在所有这些标准方面都取得了有竞争力的表现，而且没有明确地优化这些标准。我们的代码可在https://github.com/UCSB-NLP-Chang/causal_unlearn.git上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在研究LMM无效学习的先驱性方法Who's Harry Potter（WHP），并探索针对性无效学习的新任务和因果干预框架。
关键思路

本文提出了针对性无效学习的新任务，并构建了一个因果干预框架，将无效学习目标建模为混淆因素，推导出包括WHP在内的简单无效学习算法。
其它亮点

本文的亮点包括引入了针对性无效学习任务，提出了因果干预框架，推导出简单无效学习算法。实验结果表明，该方法在各个数据集上都取得了竞争性的表现。代码已经开源。
相关研究

在这个领域中，最近的相关研究包括：《A Survey of Unsupervised Learning》、《The Limitations of Deep Learning in Adversarial Settings》等。

Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective

提问交流

提问交流