Efficient Adversarial Training in LLMs with Continuous Attacks

2024年05月24日
  • 简介
    大型语言模型(LLMs)容易受到对抗攻击的影响,这些攻击可以绕过它们的安全保护措施。在许多领域中,对抗训练已被证明是可靠提高模型对此类攻击鲁棒性的最有前途的方法之一。然而,在LLMs的背景下,目前的对抗训练方法受到了在每个训练迭代中执行离散对抗攻击所需的高计算成本的限制。我们通过在LLM的连续嵌入空间中计算对抗攻击来解决这个问题,这种方法的效率要高出几个数量级。我们提出了一种快速对抗训练算法(C-AdvUL),由两个损失组成:第一个使模型在对抗行为数据集上计算的连续嵌入攻击下具有鲁棒性;第二个通过在效用数据上微调来确保最终模型的有用性。此外,我们引入了C-AdvIPO,这是IPO的对抗变体,它不需要效用数据来进行对抗性鲁棒对齐。我们对来自不同家族(Gemma、Phi3、Mistral、Zephyr)和不同规模(2B、3.8B、7B)的四个模型进行了实证评估,结果显示两种算法都可以显著提高LLM对离散攻击(GCG、AutoDAN、PAIR)的鲁棒性,同时保持效用。我们的结果表明,对连续扰动的鲁棒性可以外推到离散威胁模型。因此,我们提出了一条路径,通过可扩展的对抗训练算法来实现LLMs的鲁棒对齐。
  • 图表
  • 解决问题
    本文旨在解决大型语言模型(LLMs)容易受到对抗攻击的问题,并提出了一种更高效的对抗训练算法。
  • 关键思路
    本文提出了在LLMs的连续嵌入空间中计算对抗样本的方法,从而大大降低了对抗训练的计算成本。
  • 其它亮点
    本文提出的C-AdvUL算法和C-AdvIPO算法可以显著提高LLMs对离散攻击的鲁棒性,并保持原有的实用性。实验结果表明,对于不同规模和不同类型的LLMs,本文提出的算法都能够有效提高模型的鲁棒性。此外,本文还提供了数据集和代码。
  • 相关研究
    最近的相关研究包括:《Generating Natural Adversarial Examples》、《Adversarial Training for Large Neural Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论