- 简介大型语言模型(LLMs)已经发展到跨越不同领域的广泛知识范围。然而,控制大型语言模型不应该知道的内容对于确保对齐和安全使用非常重要。然而,由于保留和遗忘之间模糊的边界以及优化最先进的拥有数千亿参数的模型所需的大量计算需求,准确和高效地从LLM中遗忘知识仍然具有挑战性。在这项工作中,我们提出了Embedding-Corrupted(ECO)Prompts,这是一个轻量级的遗忘框架,用于大型语言模型,以解决知识纠缠和遗忘效率的两个挑战。我们不依赖于LLM本身进行遗忘,而是通过使用提示分类器来强制执行在推理期间的遗忘状态,以识别和保护要遗忘的提示。我们通过零阶优化学习添加到提示嵌入中的损坏,以实现离线遗忘目标,并在推理期间标记分类器标记的损坏提示。我们发现,这些嵌入损坏的提示不仅可以产生满足遗忘目标的理想输出,而且还可以接近从未训练过有关遗忘数据的模型的输出。通过对遗忘的广泛实验,我们展示了我们的方法在一般领域和与遗忘领域密切相关的领域中实现了有前途的遗忘,几乎没有任何副作用。此外,我们强调了我们的方法可扩展性,可以适用于100个LLMs,其参数范围从0.5B到236B,随着参数数量的增加而不会产生额外的成本。
-
- 图表
- 解决问题解决问题:本文试图解决大语言模型(LLM)中遗忘知识的问题,提出了一种轻量级的遗忘框架。
- 关键思路关键思路:该方法通过在推理过程中使用提示分类器来实现遗忘,而不是依赖LLM本身进行遗忘。同时,通过离线学习提示嵌入的破坏,实现了遗忘目标的零阶优化。
- 其它亮点其他亮点:实验结果表明,该方法能够在几乎没有副作用的情况下实现良好的遗忘效果。此外,该方法在100个LLMs上的可扩展性得到了证明。
- 相关研究:最近的相关研究包括《Gradient Episodic Memory for Continual Learning》和《The Mirage of Action-Dependent Baselines in Reinforcement Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流