Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction

2025年09月08日
  • 简介
    大型语言模型(LLMs)在软件工程任务中的应用日益广泛,尤其是在错误修复和代码生成方面。然而,这些模型往往会产生不稳定的结果;在不同时间以相同输入运行时,可能会生成截然不同的代码。尽管文献中通常在代码生成的背景下讨论这种不稳定性,但LLMs在错误修复任务中的一致性尚未得到充分评估。本研究旨在探讨像ChatGPT这样的LLM在修复代码错误时的不稳定性程度。我们通过使用包含多种错误类型的代码样本,考察了模型在相同提示下生成的多个修复建议在结构、语法和功能上的差异。此外,我们还评估了用于模型确定性运行的温度设置(0、0.5和1)如何影响其不稳定性。在实验分析中,针对总共20个问题,模型在每种温度值下各生成了三个修复建议,每个问题共比较了九种不同的输出结果。我们使用语法相似度和输出等价率(OER)指标来评估输出结果在结构和功能上的一致性。结果表明,随着温度升高,模型输出变得明显更加不稳定和多变,高温设置下尤其表现出较高的功能失败率。根据语法相似度分析,高温度下的建议修复在结构上表现出显著差异,而在低温度下则较为相似。本研究旨在为如何在软件开发流程中更一致地应用基于LLM的错误纠正系统提供重要的方法论见解,同时也对其可靠性提出了质疑。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图评估像ChatGPT这样的大语言模型(LLMs)在修复代码错误时的稳定性问题。尽管LLMs在软件工程任务中,尤其是代码生成和缺陷修复方面得到了广泛应用,但其在相同输入下多次运行可能产生差异巨大的输出。这一问题在代码生成领域已被讨论,但在缺陷修复任务中尚未得到系统研究。
  • 关键思路
    论文的核心思路是通过控制模型的温度参数(0、0.5、1),研究ChatGPT在代码缺陷修复任务中的结构、语法和功能一致性。作者使用Syntax Similarity和Output Equivalence Rate(OER)两个指标来量化不同输出之间的差异,从而揭示模型在确定性和随机性设置下的不稳定性。
  • 其它亮点
    1. 实验设计包括20个问题,每个问题在三种温度设置下生成3个修复建议,共计9个输出进行对比。 2. 发现温度越高,模型输出的不稳定性越明显,功能失败率也显著上升。 3. 语法相似性分析显示,高温下的修复建议在结构上差异较大,而低温下则较为一致。 4. 该研究为如何在软件开发流程中更可靠地应用LLM提供了方法论上的洞见。 5. 论文强调了在实际软件工程中需要对LLM输出进行多次验证和评估。
  • 相关研究
    1. Husain et al., "CodeGPT: Code Generation using Pretrained Transformers", 2020. 2. Chen et al., "Evaluating Large Language Models for Code Generation: A Benchmark Study", 2021. 3. Tufano et al., "On the Automated Fixing of Bugs: A Comprehensive Study of Deep Learning Approaches", 2022. 4. Zhang et al., "Can Pretrained Language Models Generate Functional Code?", 2023. 5. Liu et al., "Temperature and Sampling Strategies in Transformer-based Code Generation Models", 2023.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问