S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models

2024年05月23日
  • 简介
    大型语言模型因其革命性的能力而受到了广泛关注。然而,人们也越来越关注它们的安全问题,因此在模型部署之前,迫切需要进行全面的安全评估。在本文中,我们提出了 S-Eval,这是一个新的、全面的、多维的和开放式的安全评估基准。S-Eval 的核心是一种新颖的基于 LLM 的自动测试提示生成和选择框架,它训练了一个专家测试 LLM Mt,结合一系列测试选择策略,自动构建了一个高质量的测试套件,用于安全评估。这个过程自动化的关键是一种新颖的专家安全批判 LLM Mc,能够量化 LLM 响应的风险分数,并产生风险标签和解释。此外,生成过程还受到一个精心设计的风险分类法的指导,它包括四个不同的级别,涵盖了全面和多维的安全风险。基于这些,我们系统地构建了一个新的、大规模的 LLM 安全评估基准,包括 22 万个评估提示,其中包括 2 万个基本风险提示(中英文各 1 万个)和 20 万个相应的攻击提示,这些提示来自于 10 种流行的对抗指令攻击。此外,考虑到 LLM 的快速发展和伴随的安全威胁,S-Eval 可以灵活配置和适应新的风险、攻击和模型。S-Eval 在 20 个流行和代表性的 LLM 上进行了广泛的评估。结果证实,与现有基准相比,S-Eval 可以更好地反映和通报 LLM 的安全风险。我们还探讨了参数规模、语言环境和解码参数对评估的影响,为评估 LLM 的安全性提供了系统的方法。
  • 图表
  • 解决问题
    本论文旨在提出一种综合的、多维的、开放式的安全评估基准S-Eval,以解决大型语言模型(LLMs)的安全问题。
  • 关键思路
    论文提出了一种基于LLM的自动测试提示生成和选择框架,通过训练专家测试LLM Mt和一系列测试选择策略,自动构建高质量的测试套件来评估LLMs的安全性。该过程的自动化关键在于一种新颖的专家安全批判LLM Mc,能够量化LLM响应的风险得分,并产生风险标签和解释。此外,生成过程还受到一个精心设计的风险分类法的指导,涵盖了四个不同级别的综合和多维的安全风险。
  • 其它亮点
    论文构建了一个包括20万个评估提示的新的大规模安全评估基准,其中包括2万个基本风险提示(中英文各1万个)和20万个对应的攻击提示,涵盖了10种常见的对LLMs的攻击。此外,S-Eval可以灵活配置和适应新的风险、攻击和模型。论文还对20个流行的LLMs进行了广泛的评估,结果表明S-Eval相对于现有基准更能反映和提示LLMs的安全风险。
  • 相关研究
    在这个领域中,还有一些相关的研究,如GPT-3、BERT等大型语言模型的安全性评估。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论