WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs

2024年06月26日
  • 简介
    我们介绍了WildGuard——一种开放、轻量级的LLM安全性管理工具,它实现了三个目标:(1)识别用户提示中的恶意意图,(2)检测模型响应的安全风险,以及(3)确定模型的拒绝率。WildGuard为自动安全性管理和评估LLM交互的不断增长的需求提供了一种一站式工具,具有增强的准确性和对13个风险类别的广泛覆盖。虽然现有的开放式管理工具(如Llama-Guard2)在分类直接的模型交互方面表现得相当好,但在识别对抗性越狱和评估模型拒绝等方面远远落后于提示的GPT-4,这是评估模型响应安全行为的关键指标。 为了解决这些挑战,我们构建了WildGuardMix,这是一个大规模、精心平衡的多任务安全管理数据集,包含92K个标记示例,覆盖了香草(直接)提示和对抗性越狱,以及各种拒绝和遵从响应。WildGuardMix是WildGuard的训练数据(WildGuardTrain)和高质量的人工注释的管理测试集(WildGuardTest)的组合,后者包含5K个标记项,涵盖广泛的风险场景。通过对WildGuardTest和十个现有公共基准的广泛评估,我们展示了WildGuard在开源安全管理的所有三个任务上建立了最先进的性能,相比于十个强大的现有开源管理模型,如在拒绝检测方面提高了26.4%。重要的是,WildGuard与GPT-4的性能相当甚至有时超过它(例如,在提示有害性识别方面提高了3.9%)。WildGuard作为LLM界面中极其有效的安全管理器,将越狱攻击的成功率从79.8%降低到2.4%。
  • 图表
  • 解决问题
    WildGuard试图解决LLM安全性自动化调节和评估的问题,包括识别用户提示中的恶意意图、检测模型响应的安全风险以及确定模型拒绝率。
  • 关键思路
    WildGuard通过构建一个大规模、平衡的多任务安全调节数据集,采用先进的模型技术,实现了在LLM界面中高效的安全调节和评估,包括对13种风险类别的广泛覆盖和增强准确性。
  • 其它亮点
    论文提出了一个新的安全调节工具WildGuard,通过大量的实验和评估,证明了WildGuard在自动安全调节方面的性能优于已有的10个强大的开源调节模型,并且与GPT-4的性能相当甚至超过了GPT-4的性能。
  • 相关研究
    与此相关的研究包括Llama-Guard2等现有的开源调节工具,以及一些关于LLM安全性的其他研究,如“Towards Robust and Verified AI: Specification Testing for Safe Reinforcement Learning”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论