Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis

2024年06月27日
  • 简介
    攻击Android应用程序的频率不断增加,加上最近大型语言模型(LLM)的普及,必须全面了解后者在识别潜在漏洞方面的能力,这是减轻整体风险的关键。为此,本文比较了九种最先进的LLM检测Android代码漏洞的能力,并列出了最新的Open Worldwide Application Security Project(OWASP)Mobile Top 10中的漏洞清单。每个LLM都针对一个包含100多个易受攻击代码样本的开放数据集进行评估,包括混淆的代码样本,评估每个模型识别关键漏洞的能力。我们的分析揭示了每个LLM的优点和缺点,确定了影响其性能的重要因素。此外,我们提供了关于检测Android代码漏洞的检索增强生成(RAG)的上下文增强见解,这反过来可能推动安全应用程序的开发。最后,虽然关于代码漏洞分析的报告结果很有希望,但它们也揭示了不同LLM之间存在显着差异。
  • 图表
  • 解决问题
    比较9个最先进的大型语言模型(LLMs)在检测Android代码漏洞方面的能力,以及探讨使用检索增强生成(RAG)进行上下文增强的可能性。
  • 关键思路
    评估LLMs在检测Android代码漏洞方面的性能,并提出使用RAG进行上下文增强的方法。
  • 其它亮点
    使用100多个易受攻击的代码样本对9个LLMs进行评估,并分析它们的性能优劣。提出了使用RAG进行上下文增强的方法,并探讨了其潜在的应用。
  • 相关研究
    最近的相关研究包括“OWASP Mobile Top 10”中列出的其他Android代码漏洞检测方法的研究,以及使用LLMs进行代码分析的研究,如CodeBERT和CodeXGLUE。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论