When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search

2024年06月13日
  • 简介
    最近的研究开发了越狱攻击,它们构建越狱提示来“愚弄”LLM以回答有害问题。早期的越狱攻击需要访问模型内部或大量的人力。更高级的攻击利用遗传算法进行自动和黑盒攻击。然而,遗传算法的随机性质显著限制了这些攻击的有效性。在本文中,我们提出了RLbreaker,这是一种由深度强化学习(DRL)驱动的黑盒越狱攻击。我们将越狱建模为一个搜索问题,并设计了一个RL代理来指导搜索,它比随机搜索(如遗传算法)更有效且具有更少的随机性。具体而言,我们为越狱问题设计了一个定制的DRL系统,包括一个新颖的奖励函数和一个定制的近端策略优化(PPO)算法。通过大量实验,我们证明RLbreaker比现有的六种最先进的LLM更有效的越狱攻击更加有效。我们还展示了RLbreaker对三种最先进的防御措施具有鲁棒性,并且其训练代理可以在不同的LLM之间转移。我们通过全面的消融研究进一步验证了RLbreaker的关键设计选择。
  • 图表
  • 解决问题
    提出一种基于深度强化学习的黑盒越狱攻击方法,试图解决现有越狱攻击方法存在的问题。
  • 关键思路
    将越狱问题建模为搜索问题,并设计一个基于深度强化学习的代理来引导搜索,使攻击更加有效且具有较少的随机性。
  • 其它亮点
    论文设计了一套定制的深度强化学习系统,包括新颖的奖励函数和定制化的PPO算法。实验结果表明,该方法比现有的六种最先进的模型更加有效,并且具有较强的鲁棒性和泛化性。论文还提供了全面的消融实验和开源代码。
  • 相关研究
    最近的相关研究包括基于遗传算法的越狱攻击方法和其他黑盒攻击方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论