Towards Safer Large Language Models through Machine Unlearning

2024年02月15日
  • 简介
    大型语言模型(LLMs)的快速发展已经展示了它们在各个领域的巨大潜力,这归功于它们广泛的预训练知识和出色的泛化能力。然而,当面对有问题的提示时,LLMs往往会遇到生成有害内容的挑战。为了解决这个问题,现有的工作尝试实现了一种基于梯度上升的方法,以防止LLMs产生有害输出。虽然这些方法可以有效,但它们经常影响模型对正常提示的效用。为了解决这个问题,我们引入了选择性知识否定去学习(SKU),这是一种新的LLMs去学习框架,旨在消除有害知识,同时保留正常提示的效用。具体而言,SKU由两个阶段组成:有害知识获取阶段和知识否定阶段。第一阶段旨在识别和获取模型中的有害知识,而第二阶段则致力于消除这些知识。SKU有选择地隔离和删除模型参数中的有害知识,确保模型在正常提示下的性能保持稳健。我们在各种LLM架构上进行的实验表明,SKU在消除有害信息和保留效用之间找到了一个良好的平衡点。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文旨在解决LLMs在面对有问题的提示时生成有害内容的问题。
  • 关键思路
    关键思路:SKU是一种新的遗忘框架,旨在消除有害信息,同时保留模型对正常提示的效用,通过两个阶段实现:有害知识获取阶段和知识否定阶段。
  • 其它亮点
    亮点:SKU能够平衡消除有害信息和保留模型效用之间的关系。实验表明,SKU对各种LLM架构都有良好的效果。
  • 相关研究
    相关研究:当前的研究主要集中在通过梯度上升方法来防止LLMs生成有害内容。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问