Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis

简介

攻击Android应用程序的频率不断增加，加上最近大型语言模型（LLM）的普及，必须全面了解后者在识别潜在漏洞方面的能力，这是减轻整体风险的关键。为此，本文比较了九种最先进的LLM检测Android代码漏洞的能力，并列出了最新的Open Worldwide Application Security Project（OWASP）Mobile Top 10中的漏洞清单。每个LLM都针对一个包含100多个易受攻击代码样本的开放数据集进行评估，包括混淆的代码样本，评估每个模型识别关键漏洞的能力。我们的分析揭示了每个LLM的优点和缺点，确定了影响其性能的重要因素。此外，我们提供了关于检测Android代码漏洞的检索增强生成（RAG）的上下文增强见解，这反过来可能推动安全应用程序的开发。最后，虽然关于代码漏洞分析的报告结果很有希望，但它们也揭示了不同LLM之间存在显着差异。
图表
解决问题

比较9个最先进的大型语言模型（LLMs）在检测Android代码漏洞方面的能力，以及探讨使用检索增强生成（RAG）进行上下文增强的可能性。
关键思路

评估LLMs在检测Android代码漏洞方面的性能，并提出使用RAG进行上下文增强的方法。
其它亮点

使用100多个易受攻击的代码样本对9个LLMs进行评估，并分析它们的性能优劣。提出了使用RAG进行上下文增强的方法，并探讨了其潜在的应用。
相关研究

最近的相关研究包括“OWASP Mobile Top 10”中列出的其他Android代码漏洞检测方法的研究，以及使用LLMs进行代码分析的研究，如CodeBERT和CodeXGLUE。

Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis

评论