- 简介尽管大型语言模型(LLM)具有从训练语料库中获取知识的强大能力,但敏感信息(如受版权保护、有害或私人内容)在语料库中的记忆已引起了伦理和法律上的担忧。针对这些挑战,遗忘技术已经成为解决受问题训练数据影响的LLM的潜在方法。然而,以前的遗忘技术要么由于需要访问模型内部权重而无法应用于黑盒LLM,要么在推理时保留敏感数据以进行纠错,违反了数据保护原则。我们提出了一种偏移遗忘框架$\delta$-unlearning,适用于黑盒LLM。$\delta$-unlearning不是调整黑盒LLM本身,而是通过对比一对较小模型的逻辑回归,学习所需的逻辑偏移量以进行遗忘。实验表明,$\delta$-unlearning可以有效地遗忘目标数据,同时在一般的超出遗忘范围的任务上保持类似或甚至更强的性能。$\delta$-unlearning还有效地整合了不同的遗忘算法,使我们的方法成为将各种现有遗忘算法适应黑盒LLM的通用解决方案。
-
- 图表
- 解决问题解决问题:论文提出了什么新的方法来解决LLMs中存在的敏感信息记忆问题?
- 关键思路关键思路:论文提出了一种基于偏移量的unlearning框架,通过对比两个小模型的logits来学习unlearning所需的logit偏移量,从而解决了黑盒LLMs无法访问内部权重的问题。
- 其它亮点其他亮点:实验结果表明,该方法可以有效地unlearn目标数据,并在一般的out-of-forget-scope任务上保持相似或更强的性能。该方法还可以有效地结合不同的unlearning算法,使其成为适应各种现有unlearning算法的黑盒LLMs的通用解决方案。
- 相关研究:最近的相关研究包括《On the Privacy Risks of Large Language Models》、《Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流