- 简介我们介绍了WildGuard——一种开放、轻量级的LLM安全性管理工具,它实现了三个目标:(1)识别用户提示中的恶意意图,(2)检测模型响应的安全风险,(3)确定模型拒绝率。WildGuard为自动安全性管理和评估LLM交互的不断增长的需求提供了一站式工具,具有增强的准确性和对13个风险类别的广泛覆盖。虽然现有的开放式管理工具(如Llama-Guard2)在分类直接的模型交互方面表现得相当好,但它们在识别对抗性越狱和评估模型拒绝方面远远落后于提示的GPT-4,后者是评估模型响应安全行为的关键指标。为了解决这些挑战,我们构建了WildGuardMix,这是一个大规模、 carefully balanced 的多任务安全管理数据集,包含92K个标记示例,涵盖vanilla(直接)提示和对抗性越狱,配对各种拒绝和遵从响应。WildGuardMix是WildGuard的训练数据WildGuardTrain和WildGuardTest的组合,后者是一个高质量的人工注释的管理测试集,包含5K个标记项,涵盖广泛的风险情景。通过对WildGuardTest和十个现有公共基准的广泛评估,我们展示了WildGuard在开源安全管理的所有三个任务中,与十个强大的现有开源管理模型相比,建立了最先进的性能(例如,拒绝检测的提高高达26.4%)。重要的是,WildGuard与GPT-4的表现相当,有时甚至超过GPT-4的表现(例如,提示有害性识别的提高高达3.9%)。WildGuard作为LLM界面中高效的安全管理器,将越狱攻击的成功率从79.8%降低到2.4%。
- 图表
- 解决问题WildGuard试图解决LLM交互中的自动安全性检查和评估问题,包括识别用户提示中的恶意意图、检测模型响应的安全风险以及确定模型拒绝率。
- 关键思路WildGuard构建了一个大规模的、平衡的多任务安全性检查数据集,通过对这个数据集进行训练和测试,实现了在13个风险类别上的高精度检测和评估。
- 其它亮点WildGuard在自动安全性检查和评估方面取得了最新的研究成果,比十个现有的开源模型表现更好。它可以有效地降低LLM接口中的破解攻击成功率,从79.8%降至2.4%。论文使用了一个大规模、平衡的数据集,并在该数据集上进行了广泛的评估。同时,论文还提供了开源代码。
- 与本文相关的研究包括Llama-Guard2和GPT-4。
沙发等你来抢
去评论
评论
沙发等你来抢