- 简介大型语言模型(LLMs)引入了新的安全风险,但是目前很少有全面的评估工具来衡量和减少这些风险。我们提出了BenchmarkName,这是一个新颖的基准测试,用于量化LLM的安全风险和能力。我们引入了两个新的测试领域:提示注入和代码解释器滥用。我们评估了多个最先进的LLM,包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama。我们的结果表明,消除攻击风险仍然是一个未解决的问题;例如,所有测试的模型都显示出26%到41%的成功提示注入测试。我们进一步引入了安全-效用权衡:将LLM调节为拒绝不安全的提示可能会导致LLM错误地拒绝回答良性提示,降低效用。我们建议使用假拒绝率(FRR)来量化这种权衡。作为一个示例,我们引入了一个新的测试集来量化针对网络攻击有用性风险的FRR。我们发现许多LLM能够成功地遵守“边缘”良性请求,同时仍然拒绝大多数不安全的请求。最后,我们量化了LLM自动化核心网络安全任务的效用,即利用软件漏洞。这很重要,因为LLMs的攻击能力引起了极大的关注;我们通过为四个代表性问题创建新的测试集来量化这一点。我们发现具有编码能力的模型表现比没有这种能力的模型更好,但是LLMs要成为熟练的漏洞生成者仍需要进一步的工作。我们的代码是开源的,可以用于评估其他LLMs。
- 图表
- 解决问题本论文旨在量化大型语言模型的安全风险和能力,并解决条件化攻击风险的问题。同时,论文提出了安全-效用权衡的概念,以及评估机器学习模型在自动化核心网络安全任务方面的效用。
- 关键思路论文提出了BenchmarkName,一个新的基准测试套件,用于量化LLM的安全风险和能力。此外,论文还引入了两个新的测试领域:提示注入和代码解释器滥用。同时,论文提出了安全-效用权衡的概念,并提出了False Refusal Rate(FRR)来量化此权衡。
- 其它亮点论文评估了多个最先进的LLM,包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama,并发现条件化攻击风险仍然是一个未解决的问题。论文还提出了一个新的测试集来量化FRR。此外,论文还量化了LLM在自动化核心网络安全任务方面的效用,并创建了四个代表性问题的新测试集来量化LLM的攻击能力。论文的代码是开源的。
- 最近的相关研究包括:1.《Towards Evaluating the Robustness of Neural Networks》;2.《Adversarial Examples Are Not Bugs, They Are Features》;3.《Measuring the Effects of Data Parallelism on Neural Network Training》。


提问交流