CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models

向作者提问

NEW

简介

我们发布了一个新的安全基准套件，CYBERSECEVAL 3，用于继续探讨如何经验性地衡量LLM的网络安全风险和能力。CYBERSECEVAL 3评估了两个广泛类别下的8种不同风险：对第三方的风险和对应用程序开发人员和最终用户的风险。与以前的工作相比，我们增加了新的领域，专注于攻击性安全能力：自动社交工程、扩展手动攻击性网络操作和自主攻击性网络操作。在本文中，我们讨论了将这些基准应用于Llama 3模型和一套同时代的最先进的LLM，使我们能够在有或没有缓解措施的情况下对风险进行上下文化的评估。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

CYBERSECEVAL 3旨在通过评估第三方风险和应用程序开发人员及终端用户的风险来衡量LLM的网络安全风险和能力，特别是关注攻击性安全能力。论文试图验证新的风险评估方法是否可行。
关键思路

CYBERSECEVAL 3评估LLM的网络安全风险和能力，包括攻击性安全能力，与以往方法相比，增加了自动化社会工程、扩展手动攻击性网络行动和自主攻击性网络行动等新领域。通过将这些基准应用于Llama 3模型和一系列同期最先进的LLM，可以在有和没有缓解措施的情况下对风险进行上下文化。
其它亮点

论文提出了CYBERSECEVAL 3评估方法，该方法包括8种不同的风险评估，特别关注攻击性安全能力。实验设计详细，使用了Llama 3模型和一系列同期最先进的LLM，对风险进行了全面评估。论文还提供了数据集和开源代码，为后续研究提供了便利。
相关研究

最近的相关研究包括：1.《Towards Measuring Adversarial Impact of Deepfake Videos on Face Recognition Systems》；2.《Adversarial Examples for Semantic Image Segmentation》；3.《Towards Evaluating the Robustness of Neural Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问