- 简介我们发布了一个新的安全基准套件,CYBERSECEVAL 3,用于继续探讨如何经验性地衡量LLM的网络安全风险和能力。CYBERSECEVAL 3评估了两个广泛类别下的8种不同风险:对第三方的风险和对应用程序开发人员和最终用户的风险。与以前的工作相比,我们增加了新的领域,专注于攻击性安全能力:自动社交工程、扩展手动攻击性网络操作和自主攻击性网络操作。在本文中,我们讨论了将这些基准应用于Llama 3模型和一套同时代的最先进的LLM,使我们能够在有或没有缓解措施的情况下对风险进行上下文化的评估。
-
- 图表
- 解决问题CYBERSECEVAL 3旨在通过评估第三方风险和应用程序开发人员及终端用户的风险来衡量LLM的网络安全风险和能力,特别是关注攻击性安全能力。论文试图验证新的风险评估方法是否可行。
- 关键思路CYBERSECEVAL 3评估LLM的网络安全风险和能力,包括攻击性安全能力,与以往方法相比,增加了自动化社会工程、扩展手动攻击性网络行动和自主攻击性网络行动等新领域。通过将这些基准应用于Llama 3模型和一系列同期最先进的LLM,可以在有和没有缓解措施的情况下对风险进行上下文化。
- 其它亮点论文提出了CYBERSECEVAL 3评估方法,该方法包括8种不同的风险评估,特别关注攻击性安全能力。实验设计详细,使用了Llama 3模型和一系列同期最先进的LLM,对风险进行了全面评估。论文还提供了数据集和开源代码,为后续研究提供了便利。
- 最近的相关研究包括:1.《Towards Measuring Adversarial Impact of Deepfake Videos on Face Recognition Systems》;2.《Adversarial Examples for Semantic Image Segmentation》;3.《Towards Evaluating the Robustness of Neural Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流