Soft Prompting for Unlearning in Large Language Models

简介

大型语言模型（LLMs）的普及，部分原因是它们独特的上下文学习能力，也凸显了在部署这些预训练模型时重视道德和安全考虑的重要性。本文重点研究机器遗忘，旨在遵守数据保护法规。与越来越多的文献关注通过微调方法实现遗忘不同，我们关注一种相对轻量级的替代方法，称为软提示，以实现对训练数据子集的遗忘。通过设计损失以强制遗忘和实用性保留，我们的框架“软提示遗忘”（SPUL）学习提示令牌，可附加到任意查询中，在推理时诱导遗忘特定示例，而不更新LLM参数。我们对所提出的方法进行了严格的评估，结果表明，在LLM文本分类的背景下，SPUL可以显著改善实用性和遗忘之间的权衡。我们进一步使用多个LLMs验证了我们的方法，以突出我们框架的可扩展性，并提供了有关超参数选择和遗忘数据大小影响的详细见解。我们的实现可在\url{https://github.com/karuna-bhaila/llm_unlearning}上获得。
图表
解决问题

如何在保护数据隐私的前提下，对大规模语言模型进行遗忘训练？
关键思路

使用轻量级的软提示方法实现遗忘训练，该方法通过学习提示标记来实现在推理时遗忘特定的训练数据，而不需要更新大规模语言模型的参数。
其它亮点

论文提出的SPUL方法可以在文本分类任务中显著提高效用和遗忘之间的平衡，并且使用多个大规模语言模型进行验证，证明了该方法的可扩展性。作者还提供了开源代码。
相关研究

近期的相关研究包括使用微调方法实现遗忘训练的论文，如《The Art of Memory: How to Use and Abuse Memory in Deep Learning》。

Soft Prompting for Unlearning in Large Language Models

评论