Textual Unlearning Gives a False Sense of Unlearning

2024年06月19日
  • 简介
    语言模型(LMs)容易“记忆”训练数据,包括大量的私人或受版权保护的内容。为了保护被遗忘权(RTBF),机器遗忘已成为一种有效的方法,使LMs能够有效地“遗忘”敏感的训练内容并减轻知识泄漏的风险。然而,尽管其意图良好,但遗忘机制是否会产生反效果呢?在本文中,我们提出了文本遗忘泄漏攻击(TULA),其中攻击者只能通过访问遗忘前后的模型来推断有关已遗忘数据的信息。此外,我们在黑盒和白盒场景中提出了TULA的变体。通过各种实验结果,我们批判性地证明了机器遗忘会增加LMs知识泄漏的风险。具体而言,在黑盒场景中,TULA可以增加攻击者推断有关已遗忘数据成员身份信息的能力超过20%。此外,在白盒访问下,TULA甚至可以直接重建已遗忘的数据,准确率超过60%。我们的工作是首次揭示LMs中的机器遗忘可能会逆向创造更大的知识风险,并激发更安全的遗忘机制的发展。
  • 图表
  • 解决问题
    机器遗忘在自然语言处理中可能会导致知识泄露,本文提出了一种新的攻击方法TULA来证明这一点。
  • 关键思路
    本文提出了Textual Unlearning Leakage Attack (TULA)攻击方法,可以在黑盒和白盒情况下推断出被遗忘的数据,证明机器遗忘可能会导致知识泄露风险增加。
  • 其它亮点
    实验结果表明,TULA攻击方法可以在黑盒情况下提高推断被遗忘数据的准确性超过20%,在白盒情况下直接重构被遗忘数据的准确性超过60%。本文是第一篇揭示机器遗忘可能会导致知识泄露风险增加的研究,启发了更安全的机器遗忘机制的开发。
  • 相关研究
    相关研究包括《Membership Inference Attacks against Machine Learning Models》、《Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论