Badllama 3: removing safety finetuning from Llama 3 in minutes

Dmitrii Volkov
466
热度
2024年07月01日
  • 简介
    我们展示了当攻击者可以获得模型权重时,广泛使用的LLM安全微调很容易被破坏。我们评估了三种最先进的微调方法——QLoRA、ReFT和Ortho,并展示了算法进步如何使得在FLOPs和优化能力减少的情况下,仍能够保持不变的越狱性能。我们在单个GPU上仅用一分钟就可以剥离Llama 3 8B的安全微调,而对于Llama 3 70B则只需要30分钟,并概述了进一步降低这一时间的方法。
  • 图表
  • 解决问题
    本篇论文试图验证当攻击者有权访问模型权重时,广泛的LLM安全微调很容易被破坏。
  • 关键思路
    本文评估了三种最先进的微调方法-QLoRA、ReFT和Ortho,并展示了算法进步如何实现常数级的越狱性能,同时降低了FLOPs和优化能力。
  • 其它亮点
    实验结果显示,在单个GPU上,仅用一分钟就可以从Llama 3 8B中剥离安全微调,30分钟内可以从Llama 3 70B中剥离安全微调。值得注意的是,本文提出了减少这种攻击的方法。
  • 相关研究
    最近的相关研究包括:《Adversarial Examples Are Not Bugs, They Are Features》、《Explaining and Harnessing Adversarial Examples》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论