- 简介越狱攻击会导致大型语言模型(LLMs)生成有害、不道德或不可接受的内容。评估这些攻击面临许多挑战,当前的基准和评估技术并未充分解决这些挑战。首先,关于越狱评估没有明确的标准实践。其次,现有的作品以不可比较的方式计算成本和成功率。第三,许多作品不可重复,因为它们保留了对抗提示,涉及闭源代码或依赖于不断发展的专有API。为了解决这些挑战,我们引入了JailbreakBench,这是一个开源基准,包括以下组件:(1)一个新的越狱数据集,包含100种独特的行为,称为JBB-Behaviors;(2)一个不断发展的最先进的对抗提示库,称为越狱工件;(3)一个标准化的评估框架,包括明确定义的威胁模型、系统提示、聊天模板和评分函数;(4)一个排行榜,跟踪各种LLMs的攻击和防御表现。我们已经认真考虑了发布这个基准的潜在道德影响,并认为它将对社区产生积极影响。随着时间的推移,我们将扩展和调整基准,以反映研究社区的技术和方法论进步。
- 图表
- 解决问题本论文旨在解决Jailbreak攻击对大型语言模型生成有害、不道德或令人反感内容的问题,并提出了一个开源的评估基准JailbreakBench。
- 关键思路JailbreakBench包括一个新的JBB-Behaviors数据集、一个不断更新的最先进的对抗prompt库、一个标准化的评估框架和一个跟踪攻击和防御性能的排行榜,以解决现有基准和评估技术存在的问题。
- 其它亮点该论文提出了一个新的开源基准JailbreakBench,其中包括一个新的数据集、一个不断更新的对抗prompt库、一个标准化的评估框架和一个跟踪攻击和防御性能的排行榜。该基准可用于评估大型语言模型的安全性和鲁棒性。此外,该论文还考虑了公开发布该基准可能带来的潜在伦理影响。
- 近期在该领域的相关研究包括:1. Adversarial Attacks on Large Language Models via Structured Perturbations (ICLR 2021);2. Language (Model) is a Virus: Analyzing and Preventing the Spread of Misinformation (ACL 2021);3. The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes (CVPR 2020)。
沙发等你来抢
去评论
评论
沙发等你来抢