Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

简介

大型语言模型（LLMs）的兴起已经极大地推进了软件工程任务的许多应用，特别是在代码生成方面。尽管表现很有前途，但是LLMs容易产生幻觉，这意味着LLMs可能会产生与用户意图偏离、内部不一致或与事实知识不符的输出，使得LLMs的部署在广泛的应用中具有潜在的风险。现有的工作主要集中在自然语言生成（NLG）领域中的幻觉投资上，缺乏对代码生成上的幻觉类型和程度的理解。为了弥合这个差距，我们对LLM生成的代码进行了主题分析，总结和归类其中存在的幻觉。我们的研究建立了一个全面的LLM生成代码幻觉分类法，包括5种主要的幻觉类别，取决于代码生成中观察到的冲突目标和不同程度的偏离。此外，我们系统地分析了幻觉的分布，探索了不同LLMs之间的变化及其与代码正确性的相关性。基于结果，我们提出了HalluCode，这是一个用于评估代码LLMs在识别幻觉方面表现的基准。使用HalluCode和HumanEval进行幻觉识别和缓解实验显示，现有的LLMs在识别幻觉方面面临巨大挑战，特别是在识别其类型方面，几乎无法缓解幻觉。我们相信我们的发现将为幻觉评估、检测和缓解的未来研究提供启示，最终为未来构建更有效、更可靠的代码LLMs铺平道路。
解决问题

本论文旨在研究大型语言模型在代码生成中出现幻觉的类型和程度，并提出了HalluCode基准用于评估代码LLMs识别幻觉的性能。
关键思路

本论文通过对LLM生成的代码进行主题分析，建立了幻觉的综合分类法，并系统地分析了幻觉的分布和LLMs之间的差异。
其它亮点

本文提出了HalluCode基准，用于评估代码LLMs识别幻觉的性能。实验结果表明，现有的LLMs在识别和缓解幻觉方面面临巨大挑战。值得深入研究的是如何评估、检测和缓解幻觉，以建立更有效和可靠的代码LLMs。
相关研究

最近的相关研究主要集中在自然语言生成领域，本文是在代码生成领域中探索幻觉类型和程度的第一篇研究。

Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

评论