Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction

向作者提问

NEW

简介

大型语言模型（LLMs）在软件工程任务中的应用日益广泛，尤其是在错误修复和代码生成方面。然而，这些模型往往会产生不稳定的结果；在不同时间以相同输入运行时，可能会生成截然不同的代码。尽管文献中通常在代码生成的背景下讨论这种不稳定性，但LLMs在错误修复任务中的一致性尚未得到充分评估。本研究旨在探讨像ChatGPT这样的LLM在修复代码错误时的不稳定性程度。我们通过使用包含多种错误类型的代码样本，考察了模型在相同提示下生成的多个修复建议在结构、语法和功能上的差异。此外，我们还评估了用于模型确定性运行的温度设置（0、0.5和1）如何影响其不稳定性。在实验分析中，针对总共20个问题，模型在每种温度值下各生成了三个修复建议，每个问题共比较了九种不同的输出结果。我们使用语法相似度和输出等价率（OER）指标来评估输出结果在结构和功能上的一致性。结果表明，随着温度升高，模型输出变得明显更加不稳定和多变，高温设置下尤其表现出较高的功能失败率。根据语法相似度分析，高温度下的建议修复在结构上表现出显著差异，而在低温度下则较为相似。本研究旨在为如何在软件开发流程中更一致地应用基于LLM的错误纠正系统提供重要的方法论见解，同时也对其可靠性提出了质疑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图评估像ChatGPT这样的大语言模型（LLMs）在修复代码错误时的稳定性问题。尽管LLMs在软件工程任务中，尤其是代码生成和缺陷修复方面得到了广泛应用，但其在相同输入下多次运行可能产生差异巨大的输出。这一问题在代码生成领域已被讨论，但在缺陷修复任务中尚未得到系统研究。
关键思路

论文的核心思路是通过控制模型的温度参数（0、0.5、1），研究ChatGPT在代码缺陷修复任务中的结构、语法和功能一致性。作者使用Syntax Similarity和Output Equivalence Rate（OER）两个指标来量化不同输出之间的差异，从而揭示模型在确定性和随机性设置下的不稳定性。
其它亮点

1. 实验设计包括20个问题，每个问题在三种温度设置下生成3个修复建议，共计9个输出进行对比。 2. 发现温度越高，模型输出的不稳定性越明显，功能失败率也显著上升。 3. 语法相似性分析显示，高温下的修复建议在结构上差异较大，而低温下则较为一致。 4. 该研究为如何在软件开发流程中更可靠地应用LLM提供了方法论上的洞见。 5. 论文强调了在实际软件工程中需要对LLM输出进行多次验证和评估。
相关研究

1. Husain et al., "CodeGPT: Code Generation using Pretrained Transformers", 2020. 2. Chen et al., "Evaluating Large Language Models for Code Generation: A Benchmark Study", 2021. 3. Tufano et al., "On the Automated Fixing of Bugs: A Comprehensive Study of Deep Learning Approaches", 2022. 4. Zhang et al., "Can Pretrained Language Models Generate Functional Code?", 2023. 5. Liu et al., "Temperature and Sampling Strategies in Transformer-based Code Generation Models", 2023.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问