JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

2024年03月28日
  • 简介
    Jailbreak攻击会导致大型语言模型(LLMs)生成有害、不道德或其他不可接受的内容。评估这些攻击面临许多挑战,目前的基准和评估技术无法充分解决。首先,关于越狱评估没有明确的标准实践。其次,现有的研究以不可比较的方式计算成本和成功率。第三,许多研究是不可重复的,因为它们隐瞒了对抗性提示,涉及闭源代码或依赖于不断发展的专有API。为了解决这些挑战,我们引入了JailbreakBench,一个开源基准测试,包括以下组件:(1)一组最先进的对抗性提示的不断更新的存储库,我们称之为越狱工件;(2)一个包括100种行为的越狱数据集,既包括原始数据也包括之前的工作,这些数据与OpenAI的使用政策相一致;(3)一个标准化的评估框架,包括明确定义的威胁模型、系统提示、聊天模板和评分函数;以及(4)一个领先者板,跟踪各种LLMs的攻击和防御表现。我们已经仔细考虑了发布这个基准测试的潜在道德影响,并认为它将对社区产生积极的影响。随着时间的推移,我们将扩展和调整基准测试,以反映研究社区的技术和方法论进步。
  • 图表
  • 解决问题
    JailbreakBench:评估大型语言模型的越狱攻击的开源基准
  • 关键思路
    JailbreakBench是一个开源基准,旨在解决评估大型语言模型的越狱攻击所面临的挑战。它包括一个不断更新的最新越狱工具库、一个包含100个行为的数据集、一个标准化的评估框架和一个跟踪攻击和防御性能的排行榜。
  • 其它亮点
    该论文提出了一个新的开源基准JailbreakBench,旨在解决评估大型语言模型的越狱攻击所面临的挑战。该基准包括一个最新的越狱工具库、一个包含100个行为的数据集、一个标准化的评估框架和一个跟踪攻击和防御性能的排行榜。该论文还考虑了发布该基准可能带来的道德问题,并认为这将对社区产生积极影响。
  • 相关研究
    最近的相关研究包括:1.《GPT-2的黑盒攻击》;2.《大型语言模型的对抗性攻击与防御》;3.《对抗性样本生成的评估指标:一个初步研究》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论