Boosting Jailbreak Attack with Momentum

2024年05月02日
  • 简介
    大型语言模型(LLMs)在各种任务中取得了显著的成功,但它们仍然容易受到对抗性攻击,特别是众所周知的“越狱”攻击。最近,贪心坐标梯度(GCG)攻击通过梯度启发式和贪心搜索的组合优化对抗性提示,证明了其攻击效果。然而,这种攻击的效率已经成为攻击过程中的瓶颈。为了减轻这种限制,本文通过优化的视角重新思考对抗性提示的生成,旨在稳定优化过程并从先前的迭代中获得更多启发式见解。具体而言,我们引入了动量加速的GCG(MAC)攻击,将动量项纳入梯度启发式中。实验结果展示了MAC在对齐语言模型的梯度攻击中取得的显著增强。我们的代码可在https://github.com/weizeming/momentum-attack-llm上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)在面对对抗攻击时的脆弱性问题,提出了一种新的优化算法,即Momentum Accelerated GCG(MAC)攻击,以提高对齐语言模型的梯度攻击效果。
  • 关键思路
    MAC攻击在GCG攻击的基础上,引入了动量项来稳定优化过程,从而更好地利用之前迭代的启发式信息。
  • 其它亮点
    论文通过实验验证了MAC攻击的有效性,并提供了开源代码。值得关注的是,该攻击算法在对齐语言模型的梯度攻击方面取得了显著的改进。此外,论文还提到了当前领域中其他相关的对抗攻击研究。
  • 相关研究
    相关研究包括Greedy Coordinate Gradient(GCG)攻击、Jailbreak攻击等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问