Guardrail Baselines for Unlearning in LLMs

2024年03月05日
  • 简介
    最近的研究表明,微调是从大型语言模型中“遗忘”概念的一种有前途的方法。然而,微调可能很昂贵,因为它需要生成一组示例并运行微调迭代来更新模型。在这项工作中,我们展示了简单的基于防护栏的方法,如提示和过滤,可以实现与微调相当的遗忘结果。我们建议研究人员在评估更耗费计算资源的微调方法的性能时,应该调查这些轻量级的基准。虽然我们并不声称提示或过滤等方法是遗忘问题的通用解决方案,但我们的工作表明需要评估指标,可以更好地区分防护栏和微调的强度,并强调了防护栏本身在遗忘方面可能具有优势的情况,例如在为微调生成示例或仅可用API访问时进行遗忘。
  • 图表
  • 解决问题
    论文旨在探索轻量级的方法来解决从大型语言模型中'遗忘'概念的问题,以替代费时的微调方法。
  • 关键思路
    论文提出了基于提示和过滤的守卫方法,可以实现与微调相当的遗忘结果,同时避免了微调的高计算成本。
  • 其它亮点
    论文的实验结果表明,守卫方法可以作为微调方法的替代方案,同时在生成微调示例或仅有API访问权限时,守卫方法本身也可能具有优势。需要探索更好的评估指标来区分守卫方法和微调方法的性能。
  • 相关研究
    近期的相关研究包括使用不同的方法进行微调,如掩码微调和微调后的压缩。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问