A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback

简介

最近自动程序修复（APR）领域的研究提出使用推理和补丁验证反馈来减少LLMs和分析代码之间的语义差距。这个想法已经在一般APR方面表现良好，但它在其他特定情境中的有效性仍未被充分探索。在本研究中，我们评估了在安全领域中漏洞修复任务中，推理和补丁验证反馈对LLMs的影响，这是一个重要且具有挑战性的任务。为了支持评估，我们提出了VRpilot，一种基于LLMs的漏洞修复技术，它基于推理和补丁验证反馈。（1）使用思维链提示来推理漏洞，然后生成补丁候选项；（2）根据先前生成的补丁的外部工具（例如编译器、代码消毒剂、测试套件等）的输出来迭代地改进提示。为了评估性能，我们使用文献中的公共数据集将VRpilot与C和Java的最先进漏洞修复技术进行比较。我们的结果表明，与基线技术相比，VRpilot在C和Java上生成的正确补丁平均分别多出14%和7.6%。我们通过消融研究表明，推理和补丁验证反馈是关键。我们从这项研究中得出了几个教训和推进LLM强化漏洞修复的潜在方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在评估基于推理和补丁验证反馈的LLM在漏洞修复领域的影响，提出了VRpilot技术，并与现有漏洞修复技术进行比较。
关键思路

VRpilot技术使用推理和补丁验证反馈来生成漏洞修复补丁，通过迭代改进，能够比现有技术更有效地修复漏洞。
其它亮点

实验结果表明，VRpilot在C和Java上的漏洞修复效果分别比基线技术提高了14％和7.6％。文章提出了一些值得关注的问题和未来研究方向。
相关研究

与本文相关的研究包括Automated Program Repair（APR）和漏洞修复技术。相关论文包括：Automated Program Repair Using Machine Learning Techniques，A Survey of Automated Program Repair，Automated Program Repair: A Bibliography。

A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback

提问交流

提问交流