Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

简介

大型语言模型（LLMs）的崛起显著推进了许多软件工程任务的应用，尤其是在代码生成方面。尽管性能表现令人期待，但LLMs容易产生幻觉，这意味着LLMs可能会产生偏离用户意图、内部不一致或与事实知识不符的输出，从而使LLMs的部署在各种应用中具有潜在风险。现有的研究主要关注自然语言生成（NLG）领域中的幻觉，缺乏对代码生成背景下的幻觉类型和程度的理解。为了弥补这一空白，我们对LLM生成的代码进行了主题分析，总结和分类了其中存在的幻觉。我们的研究建立了LLM生成的代码中幻觉的全面分类法，包括5个主要幻觉类别，这些类别取决于代码生成中观察到的冲突目标和不同程度的偏差。此外，我们系统地分析了幻觉的分布，探索了不同LLMs之间的差异以及它们与代码正确性的相关性。基于结果，我们提出了HalluCode，这是一个用于评估代码LLMs识别幻觉性能的基准。使用HalluCode和HumanEval进行幻觉识别和缓解实验表明，现有的LLMs在识别幻觉方面面临巨大挑战，尤其是在识别其类型方面，几乎无法缓解幻觉。我们相信我们的发现将为幻觉评估、检测和缓解的未来研究提供启示，最终为未来构建更有效和可靠的代码LLMs铺平道路。
图表
解决问题

本论文旨在填补自然语言生成领域中的幻觉研究和代码生成领域之间的空白，通过对大型语言模型生成的代码进行主题分析，总结和分类幻觉的类型和程度，建立一个全面的幻觉分类法，并提出了一个基准（HalluCode）来评估代码LLM识别幻觉的性能。
关键思路

本论文通过对大型语言模型生成的代码进行主题分析，总结和分类幻觉的类型和程度，建立一个全面的幻觉分类法，并提出了一个基准（HalluCode）来评估代码LLM识别幻觉的性能。
其它亮点

论文设计了实验来分析幻觉在不同LLMs中的分布情况，并提出了一个基准（HalluCode）来评估代码LLM识别幻觉的性能。实验结果表明，现有的LLMs在识别幻觉方面面临巨大挑战，尤其是在识别幻觉类型方面，几乎不能够减轻幻觉的影响。该论文的分类法和基准可以为未来的幻觉评估、检测和减轻研究提供启示。
相关研究

最近的相关研究包括《对抗性攻击和防御在自然语言处理中的综述》、《大规模预训练语言模型的现状、挑战和未来》、《基于注意力机制的神经网络自然语言处理技术》等。

Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

评论