Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

2024年04月01日
  • 简介
    大型语言模型(LLMs)的兴起已经极大地推进了软件工程任务的许多应用,特别是在代码生成方面。尽管表现很有前途,但是LLMs容易产生幻觉,这意味着LLMs可能会产生与用户意图偏离、内部不一致或与事实知识不符的输出,使得LLMs的部署在广泛的应用中具有潜在的风险。现有的工作主要集中在自然语言生成(NLG)领域中的幻觉投资上,缺乏对代码生成上的幻觉类型和程度的理解。为了弥合这个差距,我们对LLM生成的代码进行了主题分析,总结和归类其中存在的幻觉。我们的研究建立了一个全面的LLM生成代码幻觉分类法,包括5种主要的幻觉类别,取决于代码生成中观察到的冲突目标和不同程度的偏离。此外,我们系统地分析了幻觉的分布,探索了不同LLMs之间的变化及其与代码正确性的相关性。基于结果,我们提出了HalluCode,这是一个用于评估代码LLMs在识别幻觉方面表现的基准。使用HalluCode和HumanEval进行幻觉识别和缓解实验显示,现有的LLMs在识别幻觉方面面临巨大挑战,特别是在识别其类型方面,几乎无法缓解幻觉。我们相信我们的发现将为幻觉评估、检测和缓解的未来研究提供启示,最终为未来构建更有效、更可靠的代码LLMs铺平道路。
  • 解决问题
    本论文旨在研究大型语言模型在代码生成中出现幻觉的类型和程度,并提出了HalluCode基准用于评估代码LLMs识别幻觉的性能。
  • 关键思路
    本论文通过对LLM生成的代码进行主题分析,建立了幻觉的综合分类法,并系统地分析了幻觉的分布和LLMs之间的差异。
  • 其它亮点
    本文提出了HalluCode基准,用于评估代码LLMs识别幻觉的性能。实验结果表明,现有的LLMs在识别和缓解幻觉方面面临巨大挑战。值得深入研究的是如何评估、检测和缓解幻觉,以建立更有效和可靠的代码LLMs。
  • 相关研究
    最近的相关研究主要集中在自然语言生成领域,本文是在代码生成领域中探索幻觉类型和程度的第一篇研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论