A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback

2024年05月24日
  • 简介
    最近自动程序修复(APR)领域的研究提出使用推理和补丁验证反馈来减少LLMs和分析代码之间的语义差距。这个想法已经在一般APR方面表现良好,但它在其他特定情境中的有效性仍未被充分探索。在本研究中,我们评估了在安全领域中漏洞修复任务中,推理和补丁验证反馈对LLMs的影响,这是一个重要且具有挑战性的任务。为了支持评估,我们提出了VRpilot,一种基于LLMs的漏洞修复技术,它基于推理和补丁验证反馈。(1)使用思维链提示来推理漏洞,然后生成补丁候选项;(2)根据先前生成的补丁的外部工具(例如编译器、代码消毒剂、测试套件等)的输出来迭代地改进提示。为了评估性能,我们使用文献中的公共数据集将VRpilot与C和Java的最先进漏洞修复技术进行比较。我们的结果表明,与基线技术相比,VRpilot在C和Java上生成的正确补丁平均分别多出14%和7.6%。我们通过消融研究表明,推理和补丁验证反馈是关键。我们从这项研究中得出了几个教训和推进LLM强化漏洞修复的潜在方向。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在评估基于推理和补丁验证反馈的LLM在漏洞修复领域的影响,提出了VRpilot技术,并与现有漏洞修复技术进行比较。
  • 关键思路
    VRpilot技术使用推理和补丁验证反馈来生成漏洞修复补丁,通过迭代改进,能够比现有技术更有效地修复漏洞。
  • 其它亮点
    实验结果表明,VRpilot在C和Java上的漏洞修复效果分别比基线技术提高了14%和7.6%。文章提出了一些值得关注的问题和未来研究方向。
  • 相关研究
    与本文相关的研究包括Automated Program Repair(APR)和漏洞修复技术。相关论文包括:Automated Program Repair Using Machine Learning Techniques,A Survey of Automated Program Repair,Automated Program Repair: A Bibliography。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问