Badllama 3: removing safety finetuning from Llama 3 in minutes

简介

我们展示了当攻击者可以获得模型权重时，广泛使用的LLM安全微调很容易被破坏。我们评估了三种最先进的微调方法——QLoRA、ReFT和Ortho，并展示了算法进步如何使得在FLOPs和优化能力减少的情况下，仍能够保持不变的越狱性能。我们在单个GPU上仅用一分钟就可以剥离Llama 3 8B的安全微调，而对于Llama 3 70B则只需要30分钟，并概述了进一步降低这一时间的方法。
图表
解决问题

本篇论文试图验证当攻击者有权访问模型权重时，广泛的LLM安全微调很容易被破坏。
关键思路

本文评估了三种最先进的微调方法-QLoRA、ReFT和Ortho，并展示了算法进步如何实现常数级的越狱性能，同时降低了FLOPs和优化能力。
其它亮点

实验结果显示，在单个GPU上，仅用一分钟就可以从Llama 3 8B中剥离安全微调，30分钟内可以从Llama 3 70B中剥离安全微调。值得注意的是，本文提出了减少这种攻击的方法。
相关研究

最近的相关研究包括：《Adversarial Examples Are Not Bugs, They Are Features》、《Explaining and Harnessing Adversarial Examples》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论