Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks

2024年01月30日
  • 简介
    尽管AI对齐方面取得了进展,但语言模型(LM)仍然容易受到对抗性攻击或越狱攻击的影响,即攻击者修改输入提示以诱导有害行为。虽然一些防御措施已经被提出,但它们仅关注狭窄的威胁模型,缺乏强大的防御措施。我们认为,强大的防御措施应该是有效的、通用的和实用的。为了实现这一点,我们提出了第一个针对LM进行防御越狱攻击的对抗目标,以及一种算法——鲁棒提示优化(RPO),该算法使用基于梯度的令牌优化来强制执行无害输出。这导致了一个易于访问的后缀,显著提高了对优化期间和未知的越狱攻击的鲁棒性,在20个越狱攻击中,将Starling-7B的攻击成功率从84%降至8.66%。此外,我们发现RPO对正常的LM使用影响较小,在自适应攻击下成功,并且可以转移到黑盒模型中,将对GPT-4的最强攻击的成功率从92%降至6%。
  • 图表
  • 解决问题
    本文旨在解决语言模型(LM)容易受到恶意攻击和越狱的问题,提出了对抗性目标和一种名为RPO的算法来强化LM的鲁棒性。这是否是一个新问题?
  • 关键思路
    该论文的关键思路是使用基于梯度的令牌优化来实现无害输出,从而提高LM的鲁棒性。相比当前领域的研究,该思路具有新意。
  • 其它亮点
    实验结果表明,RPO算法可以显著提高LM的鲁棒性,将攻击成功率从84%降至8.66%。该算法对于自适应攻击也很成功,并且可以转移到黑盒模型上。该论文还开源了代码。
  • 相关研究
    最近的相关研究包括《Adversarial Examples Are Not Bugs, They Are Features》、《Explaining and Harnessing Adversarial Examples》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论