CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models

向作者提问

NEW

简介

大型语言模型（LLMs）引入了新的安全风险，但是目前很少有全面的评估工具来衡量和减少这些风险。我们提出了BenchmarkName，这是一个新颖的基准测试，用于量化LLM的安全风险和能力。我们引入了两个新的测试领域：提示注入和代码解释器滥用。我们评估了多个最先进的LLM，包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama。我们的结果表明，消除攻击风险仍然是一个未解决的问题；例如，所有测试的模型都显示出26%到41%的成功提示注入测试。我们进一步引入了安全-效用权衡：将LLM调节为拒绝不安全的提示可能会导致LLM错误地拒绝回答良性提示，降低效用。我们建议使用假拒绝率（FRR）来量化这种权衡。作为一个示例，我们引入了一个新的测试集来量化针对网络攻击有用性风险的FRR。我们发现许多LLM能够成功地遵守“边缘”良性请求，同时仍然拒绝大多数不安全的请求。最后，我们量化了LLM自动化核心网络安全任务的效用，即利用软件漏洞。这很重要，因为LLMs的攻击能力引起了极大的关注；我们通过为四个代表性问题创建新的测试集来量化这一点。我们发现具有编码能力的模型表现比没有这种能力的模型更好，但是LLMs要成为熟练的漏洞生成者仍需要进一步的工作。我们的代码是开源的，可以用于评估其他LLMs。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在量化大型语言模型的安全风险和能力，并解决条件化攻击风险的问题。同时，论文提出了安全-效用权衡的概念，以及评估机器学习模型在自动化核心网络安全任务方面的效用。
关键思路

论文提出了BenchmarkName，一个新的基准测试套件，用于量化LLM的安全风险和能力。此外，论文还引入了两个新的测试领域：提示注入和代码解释器滥用。同时，论文提出了安全-效用权衡的概念，并提出了False Refusal Rate（FRR）来量化此权衡。
其它亮点

论文评估了多个最先进的LLM，包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama，并发现条件化攻击风险仍然是一个未解决的问题。论文还提出了一个新的测试集来量化FRR。此外，论文还量化了LLM在自动化核心网络安全任务方面的效用，并创建了四个代表性问题的新测试集来量化LLM的攻击能力。论文的代码是开源的。
相关研究

最近的相关研究包括：1.《Towards Evaluating the Robustness of Neural Networks》；2.《Adversarial Examples Are Not Bugs, They Are Features》；3.《Measuring the Effects of Data Parallelism on Neural Network Training》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问