- 简介大型语言模型因其革命性的能力而受到了广泛关注。然而,人们也越来越担心它们的安全影响,在模型部署之前需要进行全面的安全评估。在这项工作中,我们提出了一个名为S-Eval的新的全面、多维和开放式的安全评估基准。S-Eval的核心是一种新颖的基于LLM的自动测试提示生成和选择框架,该框架训练了一个专家测试LLM Mt,结合一系列测试选择策略,自动构建高质量的安全评估测试套件。这个过程自动化的关键是一种新颖的专家安全批评LLM Mc,能够量化LLM响应的风险分数,并额外产生风险标签和解释。此外,生成过程还受到一个精心设计的风险分类法的指导,该分类法包括四个不同级别,涵盖了全面和多维的安全风险。基于这些,我们系统地构建了一个新的大规模LLM安全评估基准,包括220,000个评估提示,其中包括20,000个基础风险提示(10,000个中文和10,000个英文)和200,000个相应的攻击提示,这些攻击提示来自于10种流行的针对LLM的对抗指令攻击。此外,考虑到LLM的快速发展和伴随的安全威胁,S-Eval可以灵活配置和适应包括新的风险、攻击和模型。S-Eval在20个流行和代表性的LLM上进行了广泛评估。结果证实,与现有基准相比,S-Eval能更好地反映和提示LLM的安全风险。我们还探讨了参数规模、语言环境和解码参数对评估的影响,为评估LLM的安全性提供了系统的方法。
- 图表
- 解决问题本论文旨在提出一种全面的、多维度的、开放式的安全评估基准,以解决大型语言模型(LLM)的安全问题,验证其安全性并提供可靠的测试套件。
- 关键思路该论文提出了一种新颖的基于LLM的自动测试提示生成和选择框架,通过训练专家测试LLM Mt和一系列测试选择策略,自动构建高质量的测试套件进行安全评估。该过程的自动化关键在于一种新颖的专家安全批判LLM Mc,能够量化LLM响应的风险评分,并产生风险标签和解释。
- 其它亮点本文构建了一个新的大规模安全评估基准,包括20,000个基本风险提示和200,000个相应的攻击提示,可灵活配置和适应新的风险、攻击和模型。作者在20个流行的和代表性的LLM上进行了广泛的评估,并发现与现有基准相比,S-Eval可以更好地反映和提供LLM的安全风险。
- 最近在这个领域中,还有一些相关的研究,如《The Gradient Obstacle Tower: A Challenge Environment for Continuous Adversarial Reinforcement Learning》和《Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach》。
沙发等你来抢
去评论
评论
沙发等你来抢