WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

2024年06月26日
  • 简介
    我们介绍了WildTeaming,这是一个自动的LLM安全红队框架,通过挖掘实际用户和聊天机器人的交互,发现了5.7K个独特的新型越狱策略集群,并组合多个策略来系统地探索新型越狱。与之前通过招募人工工作者、基于梯度的优化或LLMs的迭代修订来执行红队任务的工作相比,我们的工作从未特别指示用户破坏系统的聊天机器人用户中调查越狱。WildTeaming揭示了前沿LLMs以前未曾发现的漏洞,导致与最先进的越狱方法相比,多达4.6倍的更多样化和成功的对抗性攻击。 虽然许多数据集用于越狱评估,但用于越狱训练的开源数据集非常少,因为即使模型权重是公开的,安全训练数据也是封闭的。通过WildTeaming,我们创建了WildJailbreak,这是一个大规模的开源合成安全数据集,包含262K个原始(直接请求)和对抗性(复杂越狱)提示-响应对。为了减轻夸张的安全行为,WildJailbreak提供了两种对比类型的查询:1)有害查询(原始和对抗性)和2)类似于有害查询但不包含任何伤害的良性查询。由于WildJailbreak极大地提高了现有安全资源的质量和规模,因此它独特地使我们能够检查数据的规模效应以及数据属性和模型能力在安全训练期间的相互作用。通过广泛的实验,我们确定了使安全行为达到理想平衡的训练属性:适当的保护措施,而不是过度拒绝,有效处理原始和对抗性查询,并且最小化或不减少一般能力。WildJailbeak的所有组件都有助于实现模型的平衡安全行为。
  • 图表
  • 解决问题
    本论文旨在提出一种自动化的LLM安全红队框架,通过挖掘实际用户与聊天机器人的交互来发现新型越狱策略,并组合多种策略以系统地探索新型越狱。同时,论文还创建了一个大规模的开源合成安全数据集WildJailbreak,以解决当前缺乏安全训练数据的问题。
  • 关键思路
    通过挖掘实际用户与聊天机器人的交互,自动发现新型越狱策略,并组合多种策略以系统地探索新型越狱。同时创建了一个大规模的开源合成安全数据集WildJailbreak,以解决当前缺乏安全训练数据的问题。
  • 其它亮点
    论文使用WildTeaming框架,自动发现新型越狱策略,并组合多种策略以系统地探索新型越狱。同时创建了一个大规模的开源合成安全数据集WildJailbreak,其中包含262K个vanilla和adversarial prompt-response pairs,以解决当前缺乏安全训练数据的问题。论文还通过实验,探讨了数据和模型能力之间的相互作用,以及如何实现适当的保护措施而不会过度拒绝请求。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)使用招募的人工工作者进行红队测试;2)使用基于梯度的优化进行红队测试;3)使用LLMs进行迭代修订。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论