LLMs in Web Development: Evaluating LLM-Generated PHP Code Unveiling Vulnerabilities and Limitations

简介

本研究评估了由大型语言模型生成的Web应用程序代码的安全性，分析了2500个由GPT-4生成的PHP网站。这些网站被部署在Docker容器中，并使用Burp Suite主动扫描、静态分析和手动审查的混合方法进行漏洞测试。我们的调查重点是识别GPT-4生成的PHP代码中的不安全文件上传、SQL注入、存储型XSS和反射型XSS。该分析突出了部署此类代码在现实世界场景中可能带来的安全风险和影响。总体而言，我们的分析发现了2440个易受攻击的参数。根据Burp的扫描结果，11.56%的网站可以直接被攻击。加上静态扫描结果，26%的网站至少有一个可以通过Web交互来利用的漏洞。某些编码场景，比如文件上传功能，有78%的时间是不安全的，突显了软件安全风险的重要性。为支持进一步的研究，我们已经公开了每个样本的源代码和详细的漏洞记录。本研究强调了如果使用生成式AI技术进行软件开发，需要进行彻底的测试和评估的重要性。
解决问题

评估使用大型语言模型生成的Web应用程序代码的安全性，分析2,500个GPT-4生成的PHP网站的漏洞情况。
关键思路

使用Burp Suite主动扫描、静态分析和手动审查的混合方法来测试这些网站的漏洞，重点是识别GPT-4生成的PHP代码中的不安全文件上传、SQL注入、存储型XSS和反射型XSS。结果发现2,440个易受攻击的参数，78%的文件上传功能存在安全隐患。
其它亮点

提供了源代码和详细的漏洞记录，强调了使用生成式AI技术进行软件开发时需要进行彻底的测试和评估。
相关研究

最近的相关研究包括：《使用神经网络生成的Web应用程序的安全性评估》、《使用深度学习生成的代码的安全性评估》等。

LLMs in Web Development: Evaluating LLM-Generated PHP Code Unveiling Vulnerabilities and Limitations

评论