Guardrail Baselines for Unlearning in LLMs

简介

最近的研究表明，微调是从大型语言模型中“遗忘”概念的一种有前途的方法。然而，微调可能很昂贵，因为它需要生成一组示例并运行微调迭代来更新模型。在这项工作中，我们展示了简单的基于防护栏的方法，如提示和过滤，可以实现与微调相当的遗忘结果。我们建议研究人员在评估更耗费计算资源的微调方法的性能时，应该调查这些轻量级的基准。虽然我们并不声称提示或过滤等方法是遗忘问题的通用解决方案，但我们的工作表明需要评估指标，可以更好地区分防护栏和微调的强度，并强调了防护栏本身在遗忘方面可能具有优势的情况，例如在为微调生成示例或仅可用API访问时进行遗忘。
图表
解决问题

论文旨在探索轻量级的方法来解决从大型语言模型中'遗忘'概念的问题，以替代费时的微调方法。
关键思路

论文提出了基于提示和过滤的守卫方法，可以实现与微调相当的遗忘结果，同时避免了微调的高计算成本。
其它亮点

论文的实验结果表明，守卫方法可以作为微调方法的替代方案，同时在生成微调示例或仅有API访问权限时，守卫方法本身也可能具有优势。需要探索更好的评估指标来区分守卫方法和微调方法的性能。
相关研究

近期的相关研究包括使用不同的方法进行微调，如掩码微调和微调后的压缩。

Guardrail Baselines for Unlearning in LLMs

提问交流

提问交流