Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

2024年06月28日
  • 简介
    黑盒微调是一种新兴的接口,用于将最先进的语言模型适应于用户需求。然而,这种访问方式也可能让恶意行为者破坏模型的安全性。为了展示保护微调接口的挑战,我们介绍了隐蔽的恶意微调,一种通过微调来破坏模型安全性并逃避检测的方法。我们的方法构建了一个恶意数据集,其中每个数据点都看似无害,但微调该数据集会教导模型对编码的有害请求做出编码的有害响应。应用于GPT-4,我们的方法产生了一个微调模型,该模型在99%的时间内对有害指令做出反应,并且避免了数据集检查、安全评估和输入/输出分类器等防御机制的检测。我们的发现质疑了黑盒微调访问是否能够抵御复杂的对手攻击。
  • 图表
  • 解决问题
    本论文旨在研究黑盒微调接口的安全问题,探讨黑盒微调如何避免受到恶意攻击。
  • 关键思路
    本论文提出了一种隐蔽的恶意微调方法,可以在不被检测到的情况下,通过微调模型来教会模型对编码的有害请求做出有害响应。同时,本论文还提出了一种针对黑盒微调接口的安全防御机制。
  • 其它亮点
    论文通过构建恶意数据集,实现对GPT-4模型进行恶意微调,使得模型在99%的情况下对有害指令做出有害响应,同时避免了数据集检查、安全评估和输入/输出分类器等防御机制的检测。此外,论文还提出了一种基于安全防御机制的黑盒微调接口防御方法。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Adversarial Attacks and Defenses in Images, Graphs and Text: A Review》、《Adversarial Attacks on Neural Networks for Graph Data: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论