Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs

2024年06月07日
  • 简介
    尽管安全增强的大型语言模型(LLMs)在以零样本方式解决各种复杂任务方面取得了显著成功,但它们仍然容易受到越狱攻击的影响,尤其是未知的越狱攻击。为了增强LLMs的广义防御能力,我们提出了一个两阶段的对抗调整框架,该框架生成对抗性提示来优化包含对抗性提示及其安全响应对的数据集,以探索最坏情况。在第一阶段,我们引入了层次元通用对抗提示学习,以高效有效地生成标记级对抗提示。在第二阶段,我们提出了自动对抗提示学习,以迭代地优化语义级对抗提示,进一步增强LLM的防御能力。我们在三个广泛使用的越狱数据集上进行了全面实验,比较了我们的框架与五个代表性攻击场景下的六个防御基线。结果强调了我们提出的方法的优越性。此外,我们的对抗调整框架在各种攻击策略和目标LLMs上表现出经验性的普适性,突显其作为可转移的防御机制的潜力。
  • 图表
  • 解决问题
    如何提高Large Language Models(LLMs)的防御能力,避免被未知的破解攻击所攻击?
  • 关键思路
    提出了一个两阶段的对抗调整框架,通过生成对抗提示来探索最坏情况,并优化包含对抗提示和安全响应的数据集,从而提高LLMs的防御能力。第一阶段是引入分层元通用对抗提示学习,以有效地生成令牌级对抗提示。第二阶段是自动对抗提示学习,以迭代地优化语义级对抗提示,进一步增强LLMs的防御能力。
  • 其它亮点
    论文在三个广泛使用的破解数据集上进行了全面的实验,并将其框架与五种代表性攻击场景下的六种防御基线进行了比较。结果强调了提出方法的优越性,并展示了其在各种攻击策略和目标LLMs上的实证泛化性,突显其作为可转移的防御机制的潜力。
  • 相关研究
    最近的相关研究包括:1. "Language Models as Few-Shot Learners" 2. "Zero-shot Learning with Semantic Output Codes" 3. "Adversarial Training Methods for Semi-Supervised Text Classification"
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论