Is Your AI-Generated Code Really Secure? Evaluating Large Language Models on Secure Code Generation with CodeSecEval

向作者提问

NEW

简介

大型语言模型（LLMs）在代码生成和修复方面取得了显著进展，使得初学者和有经验的开发人员都受益匪浅。然而，它们使用来自开源代码库（如GitHub）的未经过滤的数据进行训练，存在意外传播安全漏洞的风险。尽管已经有许多研究调查了代码LLMs的安全性，但仍存在一个缺口，即全面解决其安全特性。在这项工作中，我们旨在进行一项全面研究，旨在精确评估和增强代码LLMs的安全方面。为了支持我们的研究，我们介绍了CodeSecEval，这是一个精心策划的数据集，旨在解决44种关键漏洞类型，包含180个不同的样本。CodeSecEval作为自动评估代码模型在两个关键任务中的基础：代码生成和代码修复，强调安全性。我们的实验结果表明，当前模型在代码生成和修复过程中经常忽略安全问题，导致创建易受攻击的代码。作为回应，我们提出了不同的策略，利用漏洞感知信息和不安全代码解释来减轻这些安全漏洞。此外，我们的研究结果突出显示某些漏洞类型特别挑战模型性能，影响它们在实际应用中的有效性。基于这些发现，我们相信我们的研究将对软件工程社区产生积极影响，激发改进LLMs训练和利用的方法，从而实现更安全、更可信赖的模型部署。
图表
解决问题

本论文旨在全面评估和增强代码LLMs的安全性方面，并提出了一个新的数据集CodeSecEval来支持这项研究。论文试图解决的问题是，当前的代码LLMs在使用GitHub等开源库的未经消毒数据进行训练时，存在意外传播安全漏洞的风险。
关键思路

论文提出了CodeSecEval数据集，用于自动评估代码模型在代码生成和修复任务中的安全性能，并提出了不同的策略来缓解这些安全漏洞。该研究发现，当前的模型在代码生成和修复过程中经常忽略安全问题，导致生成易受攻击的代码。论文的关键思路是通过使用漏洞感知信息和不安全代码解释来提高代码LLMs的安全性能。
其它亮点

论文介绍了一个新的数据集CodeSecEval，用于评估代码LLMs的安全性能。实验结果表明，当前的模型在处理某些漏洞类型时性能较差。论文提出了不同的策略来提高代码LLMs的安全性能，包括漏洞感知信息和不安全代码解释。此外，论文还提出了一些值得进一步研究的问题，如如何更好地训练和使用代码LLMs。
相关研究

最近的相关研究包括使用深度学习模型进行代码生成和修复的工作，以及评估这些模型的安全性能的工作。例如，"DeepBugs: A Learning Approach to Name-Based Bug Detection"和"VulDeePecker: A Deep Learning-Based System for Vulnerability Detection"等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问