- 简介本文介绍了CyberSecEval,这是一个全面的基准测试,旨在帮助增强作为编码助手使用的大型语言模型(LLMs)的网络安全。作为我们认为迄今为止最全面的统一网络安全安全基准测试,CyberSecEval在两个关键安全领域对LLMs进行了全面评估:它们生成不安全代码的倾向以及在被要求协助进行网络攻击时的合规水平。通过涉及来自Llama 2、Code Llama和OpenAI GPT大型语言模型家族的七个模型的案例研究,CyberSecEval有效地确定了关键的网络安全风险。更重要的是,它提供了改进这些模型的实用见解。研究的一个重要观察结果是更先进的模型倾向于建议不安全的代码,突显了在开发复杂的LLMs时集成安全考虑的重要性。CyberSecEval具有自动化的测试用例生成和评估管道,涵盖了广泛的范围,并为LLM设计师和研究人员提供了一种工具,以广泛衡量和增强LLMs的网络安全安全属性,有助于开发更安全的AI系统。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)作为编码助手时存在的网络安全问题,特别是它们生成不安全代码的倾向和在协助网络攻击时的合规性水平。
- 关键思路CyberSecEval是一种全面的基准测试,可以自动生成测试用例并评估LLMs的网络安全性能,以帮助LLM设计师和研究人员广泛衡量和提高LLMs的网络安全性能。
- 其它亮点本文提出的CyberSecEval是迄今为止最全面的统一网络安全性能基准测试,涵盖广泛范围,为LLM设计师和研究人员提供了一种工具来衡量和提高LLMs的网络安全性能。实验涉及七个模型,包括Llama 2、Code Llama和OpenAI GPT大型语言模型家族。实验结果表明,更先进的模型更容易建议不安全的代码,这凸显了在开发复杂的LLMs时集成安全考虑的重要性。
- 最近的相关研究包括对LLMs的其他安全性能测试,如对隐私泄漏和对抗攻击的评估。相关论文包括《Evaluating Large Language Models Trained on Code》和《On the Privacy Risks of Large Language Models》。


提问交流